LLM的工作方式：加固學習，RLHF，DeepSeek R1，Openai O1，Alphago-人工智慧-PHP中文網

>從自己的經驗中學習

值函數

讓我們深入研究其中的一些關鍵點。

首頁

科技週邊

人工智慧

LLM的工作方式：加固學習，RLHF，DeepSeek R1，Openai O1，Alphago

DDD

Feb 28, 2025 am 10:37 AM

歡迎來到我LLM深水研究的第2部分。如果您還沒有閱讀第1部分，我強烈建議您先檢查一下。

>之前，我們介紹了培訓LLM的前兩個主要階段：

>監督微調（SFT） - 使用精選的示例來完善模型以使其有用。
>現在，我們正在進入下一個主要階段：增強學習（RL）

>我從Andrej Karpathy廣受歡迎的3.5小時YouTube中獲得了參考。安德烈（Andrej）是Openai的創始成員，他的見解是黃金 - 您明白了。 >讓我們走嗎？

強化學習的目的是什麼？

> 人類和LLMS的處理信息有所不同。對我們來說，直覺（例如基本算術）可能不是針對LLM的，它僅將文本視為令牌序列。相反，LLM可以在復雜主題上產生專家級的響應，因為它在培訓過程中已經看到了足夠的例子。

在認知方面的差異使得人類註釋者提供“完美”標籤的挑戰，這些標籤始終指導LLM朝著正確的答案。通過允許模型到

>從自己的經驗中學習

。該模型不僅依靠明確的標籤，而是探索不同的令牌序列，並收到最有用的輸出。隨著時間的流逝，它學會了更好地與人類的意圖保持一致。 > rl 背後的直覺 llms是隨機的 - 這意味著它們的響應不是固定的。即使有相同的提示，輸出也會有所不同，因為它是從概率分佈中採樣的。 我們可以通過在並行中產生數千甚至數百萬個可能的響應來利用這種隨機性。將其視為探索不同路徑的模型 - 有些好，有些壞。 我們的目標是鼓勵它更頻繁地採取更好的途徑。為此，我們對導致更好結果的令牌序列進行訓練。與監督的微調不同，人類專家提供標記的數據，強化學習允許模型

>向自己學習。

>該模型發現哪些響應最有效，在每個培訓步驟之後，我們都會更新其參數。隨著時間的流逝，這使得該模型在將來給出類似提示時更有可能產生高質量的答案。

但是，我們如何確定哪些響應是最好的？我們應該做多少RL？細節很棘手，正確的正確性並不小。

rl不是“新”，它可以超越人類的專業知識（Alphago，2016）>>

> RL力量的一個很好的例子是DeepMind的Alphago，這是第一個擊敗專業GO球員併後來超過人類級別的AI。在2016年自然論文（下圖）中，當模型純粹是通過SFT訓練的模型（給出模型的模型以模仿）時，該模型能夠達到人級的性能，但永遠不要超越

。

上虛線代表了李·塞多爾（Lee Sedol）的表現 - 世界上最好的GO球員。

這是因為SFT是關於復制的，而不是創新 - 它不允許模型發現超出人類知識的新策略。但是，RL使Alphago能夠對抗自己，完善其策略，並最終超過人類的專業知識

（藍線）。

RL代表了AI中令人興奮的邊界 - 當我們在各種各樣挑戰性的問題上訓練它以完善其思維策略時，模型可以探索超越人類想像的策略。

rl基礎回顧 >讓我們快速回顧一下典型RL設置的關鍵組件：

代理

LLM的工作方式：加固學習，RLHF，DeepSeek R1，Openai O1，Alphago

-

學習者或決策者。它觀察到當前情況（

state

），選擇一個動作，然後根據結果更新其行為（

）。環境 - 代理操作的外部系統。 > state - 在給定步驟t
在每個時間戳，代理在環境中執行
，這將使環境狀態更改為新的狀態。代理人還將收到反饋，表明該動作的好壞。 > 此反饋稱為a獎勵，並以數值形式表示。積極的獎勵鼓勵了這種行為，而負面的獎勵不鼓勵這種行為。

>通過使用來自不同狀態和動作的反饋，代理逐漸學習了最佳策略，以最大程度地提高總獎勵

。 策略策略是代理人的策略。如果代理商遵循一項良好的政策，它將始終如一地做出好的決定，從而在許多步驟中獲得更高的獎勵。 在數學術語中，它是確定給定狀態的不同輸出的概率的函數 -

（πθ（a | s））

值函數

考慮到長期的預期獎勵，

對處於某種狀態的好處的估計。對於LLM，獎勵可能來自人類的反饋或獎勵模型。

> Actor-Critic體系結構

這是一個流行的RL設置，結合了兩個組件：

Actor - 學習和更新策略（πθ），確定在每個狀態下要採取哪種操作。 >
- 評估值函數（v（s））以向演員提供反饋，以反饋其所選的動作是否會導致良好的結果。 它的工作原理：

Actor

>根據其當前策略選擇一個動作。

評論家評估結果（獎勵下一個狀態）並更新其價值估計值。 >
將其全部放在llms 上
>該策略是挑選下一個令牌的策略，而價值函數估計了當前文本上下文的有益於最終產生高質量的響應。

> 為了強調RL的重要性，讓我們探索DeepSeek-R1，這是一種推理模型，在保持開源的同時，可以實現頂級性能。本文介紹了兩個模型：

deepSeek-r1-Zero和deepSeek-r1。

> DeepSeek-R1-Zero僅通過大規模RL進行訓練，跳過監督的微調（SFT）。

DeepSeek-R1建立在其基礎上，解決遇到的挑戰。 >

讓我們深入研究其中的一些關鍵點。

1。 RL算法：小組相對策略優化（GRPO） >一個關鍵遊戲更改RL算法是組相對策略優化（GRPO），這是廣泛流行的近端策略優化（PPO）的變體。 GRPO於2024年2月在DeepSeekmath紙上引入。

>為什麼要grpo aver ppo？

>對評論家模型的依賴。
PPO需要一個單獨的評論家模型，有效地使記憶和計算增加一倍。
培訓評論家對於細微或主觀的任務可能是複雜的。
>高計算成本，因為RL管道需要大量資源來評估和優化響應。 >
當您依靠絕對獎勵時 - 這意味著有一個單一的標准或指標可以判斷答案是“好”還是“壞” - 很難捕捉到跨不同推理領域的開放性，多樣化任務的細微差別。

> GRPO如何解決這些挑戰： > grpo通過使用>相對評估

的

- 在組中比較響應，而不是通過固定標准進行判斷。。想像學生解決問題。他們不是分別對他們進行評分，而是比較答案，互相學習。隨著時間的流逝，性能會趨向於更高質量。

grpo如何適應整個訓練過程？

grpo修改瞭如何計算損失的方式，而保持其他訓練步驟不變：

收集數據（查詢響應）

> - 對於llms，查詢就像問題
- 舊策略（模型的較舊快照）為每個查詢生成了幾個候選答案>>
- 對組中的每個響應進行評分（“獎勵”）。 >計算GRPO損失
>傳統上，您將計算損失 - 顯示了模型預測與真實標籤之間的偏差。但是，GRPO中的
在GRPO中，您可以衡量的是：>
a）或更糟糕的是？ c）應用剪輯以防止極端更新。
這會產生標量損失。

Back propagation gradient descent
– Back propagation calculates how each parameter contributed to loss
– Gradient descent updates those parameters to reduce the loss

偶爾更新舊策略以匹配新的策略

。 2。思想鏈（cot）

傳統的LLM培訓遵循預訓練→SFT→RL。但是，DeepSeek-r1-Zero跳過SFT，允許該模型直接探索COT推理。

就像人類通過一個棘手的問題思考一樣，COT使模型能夠將問題分解為中間步驟，從而提高複雜的推理能力。 Openai的O1型號還利用了這一點，如2024年9月的報告中所述：O1的性能通過更多的RL（火車時間計算）和更多的推理時間（測試時間計算）。 > DeepSeek-R1-Zero表現出反思性傾向，自主完善其推理。

本文中的一個關鍵圖（下圖）顯示在訓練期間的思維增加，導致更長的（更多令牌），更詳細和更好的響應。

>沒有明確的編程，它開始重新審視過去的推理步驟，從而提高準確性。這重點介紹了對RL培訓的新興推理。 該模型還具有“ AHA時刻”（下圖） - RL如何導致意外和復雜的結果。 。

注意：與DeepSeek-R1不同，OpenAI並未在O1中顯示出完全確切的思想鏈，因為他們擔心蒸餾風險 - 有人進來並試圖模仿這些推理痕跡並通過模仿來恢復很多推理性能。相反，O1只是這些思想鏈的摘要。 LLM的工作方式：加固學習，RLHF，DeepSeek R1，Openai O1，Alphago