解碼DeepSeek R1的高級推理功能-人工智慧-PHP中文網

DeepSeek-R1的高級推理能力使其成為生成LLM領域的新領導者。它在AI行業引起了轟動，報導了NVIDIA啟動後6000億美元虧損的報導。但是，什麼使DeepSeek-R1在一夜之間如此著名呢？在本文中，我們將探討為什麼DeepSeek-R1引起了很多關注，深入研究其開創性的功能，並分析其推理能力如何重塑現實世界的應用。通過詳細的結構化分析分解模型的性能，請繼續關注。

學習目標

>了解DeepSeek-R1的高級推理能力及其對LLM景觀的影響。

學習團體相對政策優化（GRPO）如何在沒有評論家模型的情況下增強強化學習。
探索DeepSeek-R1-Zero和DeepSeek-R1在培訓和性能方面的差異。
分析展示DeepSeek-R1在推理任務中的優越性的評估指標和基準。
> DeepSeek-R1如何通過可擴展的高通量AI模型優化STEM和編碼任務。

>本文是> > data Science Blogathon的一部分。 >內容表

>什麼是deepseek-r1？

什麼是組相對策略優化（grpo）？
DeepSeek-r1
>>評估DeepSeek-R1-7B
結論

常見問題

頻繁詢問問題

什麼是deepseek-r1？

簡單地說，DeepSeek-R1是由DeepSeek開發的尖端語言模型系列，該系列由Liang Wenfeng於2023年建立。它通過加強學習（RL）實現了LLMS的高級推理能力。有兩個變體：

> deepSeek-r1-Zero

>它是在基本模型上純粹通過RL訓練的，沒有監督微調（SFT），並且自主發展了諸如自我驗證和多步反射之類的先進推理行為，在AIME 2024基準測試中獲得71％的準確性

> deepSeek-r1

通過冷啟動數據和多階段培訓（RL SFT），它得到了增強，它解決了可讀性問題，並且在Math-500（97.3％的準確性）和編碼挑戰（CodeForces評分2029）等任務上的Optors Openai的O1優於OpenAI的O1 DeepSeek使用小組相對策略優化（GRPO），這是一種不使用評論家模型並節省RL培訓成本的RL技術。 GRPO通過對產出和標準獎勵進行分組來優化政策，從而消除了對評論家模型的需求。

該項目還將其推理模式提煉成較小的模型（1.5b-70b），從而實現有效的部署。根據基準，它的7b型號超過了GPT-4O。

> DeepSeek-r1紙在這裡。

比較圖表

AIME數據集上的DeepSeek-R1-Zero的精度

DeepSeek開源的模型，培訓管道和基準旨在使RL驅動的推理研究民主化，為STEM，編碼和知識密集型任務提供可擴展的解決方案。 DeepSeek-R1指導了低成本，高通量SLM和LLM的新時代。解碼DeepSeek R1的高級推理功能什麼是組相對策略優化（GRPO）？

進入尖端的GRPO之前，讓我們對一些強化學習（RL）的基礎進行沖浪。 >

增強學習是代理和環境之間的相互作用。在培訓期間，代理採取行動，使其最大化累積獎勵。考慮一下在工廠地板上的機器人，試圖使用實際物品執行任務的機器人。

代理商正在通過做學習。當它做正確的事情時，它會獲得回報。否則，它會產生負面影響。通過進行這些重複的試驗，將有一個旅程來找到適應未知環境的最佳策略。

這是加固學習的簡單圖，它具有3個組成部分：>

>核心RL循環

代理商根據學習的策略採取行動。

>行動是代理商在給定狀態下做出的決定。

環境是外部系統（遊戲，車間地板，飛行無人機等），代理商通過互動進行操作和學習。

環境以新狀態和獎勵的形式向代理提供了反饋。

價值函數估計特定狀態或行動在長期獎勵方面的良好狀態

策略是定義代理商選擇的策略。

值函數通過幫助改善決策解碼DeepSeek R1的高級推理功能來為政策提供信息。

策略指南（指南關係）在選擇RL循環中的動作

中的代理商

經驗，在這裡代理在與環境互動時收集交易。 >
中的訓練過程和優化

關於我對DeepSeek-R1研究論文的理解，這是DeepSeek-R1-Zero和DeepSeek-R1模型的示意性培訓過程。

> 解碼DeepSeek R1的高級推理功能對於每個問題Q，GRPO從舊策略中示例一組輸出{O1，O2，O2 ..}，並通過最大化以下目標來優化策略模型：>

> epsilon和beta是超參數，A_I是使用一組獎勵{R1，R2，R3…RG}計算出的優勢，與每個組中的輸出相對應。

解碼DeepSeek R1的高級推理功能在優勢計算中，在組輸出中歸一化獎勵，

是輸出i和r_group的獎勵。

>以kl懲罰最大化剪裁的策略更新 > kullback-leibler divergence

>更多kl-divergence 解碼DeepSeek R1的高級推理功能

相對熵或KL距離始終是非負實數。當Q和P相同時，它的最低值為0。這意味著模型概率分佈（Q）和真實概率分佈（P）重疊或完美的系統。

kl Divergence

的示例

這是展示kl Divergence的簡單示例，

>我們將使用Scipy統計軟件包中的熵函數，它將計算兩個分佈之間的相對熵。

我們的p和q分別像高斯一樣，分別移動了高斯分佈。

> 解碼DeepSeek R1的高級推理功能

黃色部分是p和q之間的kl差異。

在GRPO方程式中，GRPO在每個查詢中示例一組輸出，併計算相對於組的平均值和標準偏差的優勢。這避免了培訓單獨的評論家模型。該目標包括剪裁比率和吉隆坡罰款，以保持與參考政策的接近。

比率部分是新策略和舊策略的概率比率。

用戶和助手之間的對話過程

import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import entropy

登入後複製

>用戶提出問題，模型或助手通過首先考慮推理過程然後對用戶響應。

推理和答案是在下圖中包含的。

解碼DeepSeek R1的高級推理功能

DeepSeek-R1-Zero的自我進化過程

import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import entropy

登入後複製

表明，強化學習如何自動地提高模型的推理能力。該圖顯示了模型處理複雜推理任務的推理功能如何發展。

解碼DeepSeek R1的高級推理功能 >增強了deepSeek-r1

的推理和一般能力

> deepSeek-r1，回答了零模型的有希望結果後出現的兩個重要問題。

可以進一步提高推理性能嗎？

與DeepSeek-R1-Zero相比，這些數據具有兩個重要的優勢。

解碼DeepSeek R1的高級推理功能可讀性

：零模型的關鍵限制是其內容不適合閱讀。這些響應與多種語言混合在一起，格式化不佳以突出用戶的答案。

：專家領導設計冷啟動數據的模式，以幫助deepSeek-r1-Zero更好地性能。 DeepSeek-R1
然後將通過@1通過，然後計算為：

在這裡，p_i表示第i-th的正確性，根據研究論文，該方法可確保更可靠的績效估計。

我們可以看到，與DeepSeek-V3相比，MMLU，MMLU-PRO，GPQA Diamond和DeepSeek-R1等面向教育的知識基準表現更好。它主要提高了與STEM相關問題的準確性。 DeepSeek-R1還為IF-Eval提供了很好的結果，IF-Eval是一個旨在評估該模型遵循格式指令的能力的基準數據。已經完成了足夠多的數學和理論理解，我希望這會大大提高您對強化學習的整體知識及其對DeepSeek-R1模型開發的最先進應用。現在，我們將使用Ollama來獲得DeepSeek-R1，並品嚐新鑄造的LLM。

評估DeepSeek-R1-7B

的推理能力

> DeepSeek-R1-7b的評估集中在其增強的推理功能上，尤其是在復雜的問題解決方案中的表現。通過分析關鍵基準，該評估提供了有關該模型與其前任相比如何有效地處理複雜的推理任務的見解。

我們想實現的目標

評估DeepSeek-R1跨不同認知領域的推理能力

>設置環境

>安裝ollama

import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import entropy

登入後複製

Q.SOLVE 4X 3＆lt; 6x 7

的響應是：

根據書籍準確。解碼DeepSeek R1的高級推理功能

令人驚嘆！！解碼DeepSeek R1的高級推理功能

現在將使用llamaindex建立一個測試環境，這將是一種更重要的方法。

設置測試環境

現在，我們安裝必要的軟件包

# Define two probability distributions P and Q
x = np.linspace(-3, 3, 100)
P = np.exp(-(x**2))  # Gaussian-like distribution
Q = np.exp(-((x - 1) ** 2))  # Shifted Gaussian

# Normalize to ensure they sum to 1
P /= P.sum()
Q /= Q.sum()

# Compute KL divergence
kl_div = entropy(P, Q)

登入後複製

>安裝軟件包

現在打開vscode並創建一個jupyter筆記本名稱提示_analysis.ipynb項目文件夾的根。

>導入庫

plt.style.use("ggplot")
plt.figure(figsize=(12, 8))
plt.plot(x, P, label="P (Original)", line, color="blue")
plt.plot(x, Q, label="Q (Shifted)", line, color="red")
plt.fill_between(x, P, Q, color="yellow", alpha=0.3, label="Difference")
plt.title(f"KL Divergence: {kl_div:.4f}")
plt.xlabel("x")
plt.ylabel("Probability Density")
plt.legend()
plt.show()

登入後複製

>您必須在終端上運行Ollama DeepSeek-r1：7b。

>

現在，從數學問題開始

<think> reasoning process</think>
<answer> answer here </answer>

USER: Prompt
Assistant: Answer

登入後複製

unimorant：

>輸出將很長，因此該博客中的輸出將被刪除，為了完整的輸出，您必須在此處查看博客的代碼存儲庫。 >

高級推理和解決問題的方案

>本節探討了複雜的解決問題的任務，這些任務需要對從數學計算到道德困境的各種推理技術有深入了解。通過參與這些方案，您將增強批判性思考，分析數據並在各種環境中得出邏輯結論的能力。

數學問題：折扣和忠誠度卡計算

>一家商店可為所有物品提供20％的折扣。應用折扣後，會員卡成員額外享受10％的折扣。如果一個物品最初的價格為150美元，那麼會員卡會員的最終價格是多少？顯示您的逐步計算並解釋您的推理。

import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import entropy

登入後複製

輸出：

解碼DeepSeek R1的高級推理功能

此提示的關鍵方面是：

>順序計算能力
理解百分比概念
>逐步推理
說明的清晰度。

邏輯推理：識別語句中的矛盾

考慮以下陳述：所有鳥類都可以捕獲鳥類的鳥類，這是鳥類無法識別這些陳述中的任何矛盾。如果存在矛盾，請解釋如何使用邏輯推理解決它們。 >

# Define two probability distributions P and Q
x = np.linspace(-3, 3, 100)
P = np.exp(-(x**2))  # Gaussian-like distribution
Q = np.exp(-((x - 1) ** 2))  # Shifted Gaussian

# Normalize to ensure they sum to 1
P /= P.sum()
Q /= Q.sum()

# Compute KL divergence
kl_div = entropy(P, Q)

登入後複製

輸出：

解碼DeepSeek R1的高級推理功能

>這將顯示邏輯一致性，提出邏輯解決方案，了解階級關係和三段論推理。

因果鏈分析：疾病對狼的生態系統影響

在森林生態系統中，疾病殺死了80％的狼種群。描述未來5年內可能對生態系統產生的潛在影響鏈。至少包括三個級別的因果關係，並為每個步驟解釋您的推理。

plt.style.use("ggplot")
plt.figure(figsize=(12, 8))
plt.plot(x, P, label="P (Original)", line, color="blue")
plt.plot(x, Q, label="Q (Shifted)", line, color="red")
plt.fill_between(x, P, Q, color="yellow", alpha=0.3, label="Difference")
plt.title(f"KL Divergence: {kl_div:.4f}")
plt.xlabel("x")
plt.ylabel("Probability Density")
plt.legend()
plt.show()

登入後複製

輸出：

解碼DeepSeek R1的高級推理功能此提示模型顯示了對複雜系統的理解，跟踪多個休閒鏈，考慮間接效果並應用域知識。

>模式識別：識別和解釋數字序列

考慮以下順序：2、6、12、20、30，__下一個數字是什麼？

解釋模式

輸出：

<think> reasoning process</think>
<answer> answer here </answer>

USER: Prompt
Assistant: Answer

登入後複製

模型擅長識別數值模式，生成數學公式，解釋推理過程並驗證解決方案。

>概率問題：用大理石計算概率

一個包包含3個紅色大理石，4個藍色大理石和5個綠色大理石。如果您在不替換的情況下畫兩個大理石：

繪製兩個藍色大理石的概率是多少？

顯示所有計算並解釋您的方法。

import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import entropy

登入後複製

輸出：

解碼DeepSeek R1的高級推理功能

該模型可以計算概率，處理條件問題並解釋概率推理。

調試：代碼及其解決方案中的邏輯錯誤

此代碼具有邏輯錯誤，可以防止其正確運行。 >

# Define two probability distributions P and Q
x = np.linspace(-3, 3, 100)
P = np.exp(-(x**2))  # Gaussian-like distribution
Q = np.exp(-((x - 1) ** 2))  # Shifted Gaussian

# Normalize to ensure they sum to 1
P /= P.sum()
Q /= Q.sum()

# Compute KL divergence
kl_div = entropy(P, Q)

登入後複製

確定所有潛在問題

解釋為什麼每個問題
提供更正的版本
解釋為什麼您的解決方案更好

plt.style.use("ggplot")
plt.figure(figsize=(12, 8))
plt.plot(x, P, label="P (Original)", line, color="blue")
plt.plot(x, Q, label="Q (Shifted)", line, color="red")
plt.fill_between(x, P, Q, color="yellow", alpha=0.3, label="Difference")
plt.title(f"KL Divergence: {kl_div:.4f}")
plt.xlabel("x")
plt.ylabel("Probability Density")
plt.legend()
plt.show()

登入後複製

輸出：

解碼DeepSeek R1的高級推理功能

解碼DeepSeek R1的高級推理功能 > DeepSeek-R1找到邊緣案例，了解錯誤條件，應用校正並解釋技術解決方案。

比較分析：電動汽車與汽油汽車

用以下方式比較電動汽車和傳統汽油汽車

環境影響

長期成本

>便利
性能
對於每個因素，提供特定的示例和數據點。然後，說明哪種類型的汽車會更好：

每年開車30,000英里的旅行銷售員

輸出：

<think> reasoning process</think>
<answer> answer here </answer>

USER: Prompt
Assistant: Answer

登入後複製

>這是一個巨大的回應，我喜歡推理過程。它分析了多種因素，考慮了環境，提出了很好的建議和平衡的優先事項。 道德困境：自動駕駛汽車的決策

自動駕駛汽車必須做出分秒的決定：解碼DeepSeek R1的高級推理功能

左轉：擊中兩個行人

右轉：撞牆，嚴重傷害乘客

使用的道德框架
做出的假設

優先級別

長期含義

輸出：

這些類型的問題對於生成AI模型最有問題。它測試道德推理，多種觀點，道德困境和價值判斷。總體而言，這是一個井。我認為更符合道德領域的微調會產生更深刻的反應。

統計分析：評估有關咖啡消費的研究主張

一項研究聲稱，咖啡飲用者的壽命比非咖啡飲者的壽命更長。該研究觀察到1000名40-50歲的人持續5年。

>識別：

潛在的混雜變量

採樣偏見
替代解釋
哪些其他數據將加強或削弱結論？

輸出：

import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import entropy

登入後複製

>它足夠了解統計概念，確定了研究局限性和對數據的批判性思維，並提出了方法論上的改進。解碼DeepSeek R1的高級推理功能時間序列分析

輸出：

# Define two probability distributions P and Q
x = np.linspace(-3, 3, 100)
P = np.exp(-(x**2))  # Gaussian-like distribution
Q = np.exp(-((x - 1) ** 2))  # Shifted Gaussian

# Normalize to ensure they sum to 1
P /= P.sum()
Q /= Q.sum()

# Compute KL divergence
kl_div = entropy(P, Q)

登入後複製

DeepSeek喜歡數學問題，處理指數衰減，提供良好的數學模型並提供計算。

調度任務

解碼DeepSeek R1的高級推理功能

輸出：

plt.style.use("ggplot")
plt.figure(figsize=(12, 8))
plt.plot(x, P, label="P (Original)", line, color="blue")
plt.plot(x, Q, label="Q (Shifted)", line, color="red")
plt.fill_between(x, P, Q, color="yellow", alpha=0.3, label="Difference")
plt.title(f"KL Divergence: {kl_div:.4f}")
plt.xlabel("x")
plt.ylabel("Probability Density")
plt.legend()
plt.show()

登入後複製

>它可以處理多個約束，產生優化的時間表並提供解決問題的過程。

跨域分析

解碼DeepSeek R1的高級推理功能

輸出：

<think> reasoning process</think>
<answer> answer here </answer>

USER: Prompt
Assistant: Answer

登入後複製

>很好地完成了將不同類型的域進行比較在一起的工作，這是非常令人印象深刻的。這種類型的推理有助於不同類型的域糾纏在一起，因此可以通過其他域的解決方案來解決一個域的問題。它有助於研究跨域的理解。 >

>儘管有很多示例提示，您可以在本地系統上嘗試該模型，而無需花費任何一分錢。我將使用DeepSeek-R1進行更多研究，並了解不同領域。您所需要的只是一台筆記本電腦，您的時間和一個好地方。

> 解碼DeepSeek R1的高級推理功能本文中使用的所有代碼。

結論

DeepSeek-R1

顯示了各種推理任務的有希望的能力，展示了其在結構化邏輯分析，分步問題解決，多上下文理解以及來自不同主題的知識積累中的高級推理能力。但是，有一些需要改進的領域，例如復雜的時間推理，處理深刻的歧義和產生創造性的解決方案。最重要的是，它證明瞭如何在不承擔GPU的巨大培訓費用的情況下開發諸如DeepSeek-R1之類的模型。

>其開源模型將AI推向了更民主的領域。這種培訓方法將很快進行新的研究，從而導致具有更好推理能力的更有效和強大的AI模型。儘管AGI可能仍然處於遙遠的未來，但DeepSeek-R1的進步朝著未來的未來，AGI將與人息息相關。 DeepSeek-R1無疑是實現更先進的AI推理系統的重要一步。

鑰匙要點

DeepSeek R1的高級推理功能通過其執行結構化邏輯分析，逐步解決問題並了解不同領域的複雜環境的能力發光。該模型通過從不同主題中積累知識來推動推理的界限，展示了令人印象深刻的多上下文理解，該理解使其與其他生成的LLMS不同。儘管具有優勢，但DeepSeek R1的高級推理能力仍然在復雜的時間推理和歧義等領域面臨挑戰，這為將來的改進打開了大門。

1。 DeepSeek-r1-7b與推理任務中的大型模型相比如何？儘管它可能與較大的32B或70B模型的功率不符，但在結構推理任務中顯示出可比的性能，尤其是在數學和邏輯分析中。測試推理時及時設計的最佳實踐是什麼？逐步編寫要求，專注於明確的說明和明確的評估標準。多部分問題通常比單個問題產生更好的見解。

Q 3。這些評估方法的可靠性如何？我們是人類，我們必須使用大腦來評估反應。它應用作更廣泛的評估策略的一部分，該策略包括定量指標和現實世界測試。遵循此原則將有助於更好的評估。

>本文所示的媒體不歸Analytics Vidhya擁有，並由作者的酌情決定使用。

以上是解碼DeepSeek R1的高級推理功能的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn