LLM的工作方式:加固學習,RLHF,DeepSeek R1,Openai O1,Alphago
歡迎來到我LLM深水研究的第2部分。如果您還沒有閱讀第1部分,我強烈建議您先檢查一下。
>>之前,我們介紹了培訓LLM的前兩個主要階段:
- >預訓練 - 從大規模數據集中學習以形成基本模型。
- >監督微調(SFT) - 使用精選的示例來完善模型以使其有用。
- >現在,我們正在進入下一個主要階段:
增強學習(RL) 。雖然預訓練和SFT是完善的,但RL仍在不斷發展,但已成為訓練管道的關鍵部分。
>我從Andrej Karpathy廣受歡迎的3.5小時YouTube中獲得了參考。安德烈(Andrej)是Openai的創始成員,他的見解是黃金 - 您明白了。 >讓我們走嗎?
強化學習的目的是什麼?> 人類和LLMS的處理信息有所不同。對我們來說,直覺(例如基本算術)可能不是針對LLM的,它僅將文本視為令牌序列。相反,LLM可以在復雜主題上產生專家級的響應,因為它在培訓過程中已經看到了足夠的例子。
在認知方面的差異使得人類註釋者提供“完美”標籤的挑戰,這些標籤始終指導LLM朝著正確的答案。 通過允許模型到>從自己的經驗中學習
。 該模型不僅依靠明確的標籤,而是探索不同的令牌序列,並收到最有用的輸出。隨著時間的流逝,它學會了更好地與人類的意圖保持一致。 > rl 背後的直覺 llms是隨機的 - 這意味著它們的響應不是固定的。即使有相同的提示,輸出也會有所不同,因為它是從概率分佈中採樣的。 我們可以通過在並行中產生數千甚至數百萬個可能的響應來利用這種隨機性。將其視為探索不同路徑的模型 - 有些好,有些壞。 我們的目標是鼓勵它更頻繁地採取更好的途徑。 為此,我們對導致更好結果的令牌序列進行訓練。與監督的微調不同,人類專家提供標記的數據,強化學習允許模型
>向自己學習。>該模型發現哪些響應最有效,在每個培訓步驟之後,我們都會更新其參數。隨著時間的流逝,這使得該模型在將來給出類似提示時更有可能產生高質量的答案。
但是,我們如何確定哪些響應是最好的?我們應該做多少RL?細節很棘手,正確的正確性並不小。rl不是“新”,它可以超越人類的專業知識(Alphago,2016)>>
> RL力量的一個很好的例子是DeepMind的Alphago,這是第一個擊敗專業GO球員併後來超過人類級別的AI。
在2016年自然論文(下圖)中,當模型純粹是通過SFT訓練的模型(給出模型的模型以模仿)時,該模型能夠達到人級的性能,但永遠不要超越。
上虛線代表了李·塞多爾(Lee Sedol)的表現 - 世界上最好的GO球員。這是因為SFT是關於復制的,而不是創新 - 它不允許模型發現超出人類知識的新策略。 但是,RL使Alphago能夠對抗自己,完善其策略,並最終超過人類的專業知識
(藍線)。RL代表了AI中令人興奮的邊界 - 當我們在各種各樣挑戰性的問題上訓練它以完善其思維策略時,模型可以探索超越人類想像的策略。
rl基礎回顧 >讓我們快速回顧一下典型RL設置的關鍵組件:
代理

-
學習者或決策者。它觀察到當前情況(
state
- >獎勵
- )。 環境 - 代理操作的外部系統。 > state - 在給定步驟t 的環境的快照。
- 在每個時間戳,代理在環境中執行
- ,這將使環境狀態更改為新的狀態。代理人還將收到反饋,表明該動作的好壞。 > 此反饋稱為a獎勵,並以數值形式表示。積極的獎勵鼓勵了這種行為,而負面的獎勵不鼓勵這種行為。
。 策略 策略是代理人的策略。如果代理商遵循一項良好的政策,它將始終如一地做出好的決定,從而在許多步驟中獲得更高的獎勵。 在數學術語中,它是確定給定狀態的不同輸出的概率的函數 -
(πθ(a | s))
值函數
考慮到長期的預期獎勵,對處於某種狀態的好處的估計。對於LLM,獎勵可能來自人類的反饋或獎勵模型。
> Actor-Critic體系結構這是一個流行的RL設置,結合了兩個組件:
>
- Actor - 學習和更新策略(πθ),確定在每個狀態下要採取哪種操作。
> 評論 - - 評估值函數(v(s))以向演員提供反饋,以反饋其所選的動作是否會導致良好的結果。 它的工作原理:
Actor
>根據其當前策略選擇一個動作。-
評論家評估結果(獎勵下一個狀態)並更新其價值估計值。
> 評論家的反饋可以幫助演員完善其政策,從而使未來的行動帶來更高的回報。
- 將其全部放在llms 上 狀態可以是當前文本(提示或對話),並且該操作可以是生成的下一個標記。獎勵模型(例如,人為反饋)告訴模型,它產生的文本有多好或壞。
- >該策略是挑選下一個令牌的策略,而價值函數估計了當前文本上下文的有益於最終產生高質量的響應。 > DeepSeek-r1(2025年1月22日出版)
deepSeek-r1-Zero和deepSeek-r1。
> DeepSeek-R1-Zero僅通過大規模RL進行訓練,跳過監督的微調(SFT)。
DeepSeek-R1建立在其基礎上,解決遇到的挑戰。
讓我們深入研究其中的一些關鍵點。
1。 RL算法:小組相對策略優化(GRPO) >一個關鍵遊戲更改RL算法是組相對策略優化(GRPO),這是廣泛流行的近端策略優化(PPO)的變體。 GRPO於2024年2月在DeepSeekmath紙上引入。
- >為什麼要grpo aver ppo? > PPO由於以下原因而在推理任務上掙扎
- >對評論家模型的依賴。
PPO需要一個單獨的評論家模型,有效地使記憶和計算增加一倍。
培訓評論家對於細微或主觀的任務可能是複雜的。 >
- >高計算成本,因為RL管道需要大量資源來評估和優化響應。
> 絕對的獎勵評估 - 當您依靠絕對獎勵時 - 這意味著有一個單一的標准或指標可以判斷答案是“好”還是“壞” - 很難捕捉到跨不同推理領域的開放性,多樣化任務的細微差別。
> GRPO如何解決這些挑戰:
- 在組中比較響應,而不是通過固定標准進行判斷。
grpo修改瞭如何計算損失的方式,而保持其他訓練步驟不變:
>收集數據(查詢響應)
-
> - 對於llms,查詢就像問題
- 舊策略(模型的較舊快照)為每個查詢生成了幾個候選答案>>
>分配獎勵 - - 對組中的每個響應進行評分(“獎勵”)。 >計算GRPO損失
-
>傳統上,您將計算損失 - 顯示了模型預測與真實標籤之間的偏差。但是,GRPO中的
在GRPO中,您可以衡量的是:>
-
a)或更糟糕的是? c)應用剪輯以防止極端更新。
這會產生標量損失。
Back propagation gradient descent -
– Back propagation calculates how each parameter contributed to loss
– Gradient descent updates those parameters to reduce the loss – Over many iterations, this gradually shifts the new policy to prefer higher reward responses
偶爾更新舊策略以匹配新的策略
。 2。思想鏈(cot)
傳統的LLM培訓遵循預訓練→SFT→RL。但是,DeepSeek-r1-Zero跳過SFT,允許該模型直接探索COT推理。就像人類通過一個棘手的問題思考一樣,COT使模型能夠將問題分解為中間步驟,從而提高複雜的推理能力。 Openai的O1型號還利用了這一點,如2024年9月的報告中所述:O1的性能通過更多的RL(火車時間計算)和更多的推理時間(測試時間計算)。 > DeepSeek-R1-Zero表現出反思性傾向,自主完善其推理。
>本文中的一個關鍵圖(下圖)顯示在訓練期間的思維增加,導致更長的(更多令牌),更詳細和更好的響應。>沒有明確的編程,它開始重新審視過去的推理步驟,從而提高準確性。這重點介紹了對RL培訓的新興推理。 該模型還具有“ AHA時刻”(下圖) - RL如何導致意外和復雜的結果。 。
注意:與DeepSeek-R1不同,OpenAI並未在O1中顯示出完全確切的思想鏈,因為他們擔心蒸餾風險 - 有人進來並試圖模仿這些推理痕跡並通過模仿來恢復很多推理性能。相反,O1只是這些思想鏈的摘要。
的加強學習
對於具有可驗證輸出的任務(例如,數學問題,事實問答),可以輕鬆評估AI響應。但是,諸如摘要或創意寫作之類的領域呢?這是人類反饋的來源 - 但是幼稚的RL方法是不可計算的。

這是十億人類評估!這太昂貴,緩慢且不計。因此,更聰明的解決方案是訓練AI“獎勵模型”以學習人類的偏好,大大減少了人類的努力。
排名響應也比絕對得分更容易,更直觀。
RLHF
的Upside
- 可以應用於任何領域,包括創意寫作,詩歌,摘要和其他開放式任務。
- 對人類標籤者的排名要比生成創意輸出本身要容易得多。
- RLHF 的
獎勵模型是一個近似值 - 它可能無法完全反映人類的偏好。
- rl擅長游戲獎勵模型 - 如果運行時間太長,該模型可能會利用漏洞,產生仍然獲得很高分數的荒謬輸出。
- >
結論 >這是一個包裝!希望您喜歡第2部分嗎?如果您尚未閱讀第1部分 - 請在此處查看。 > 對我接下來應該介紹的內容有疑問或想法?將他們放在評論中 - 我很想听聽您的想法。在下一篇文章中見!
以上是LLM的工作方式:加固學習,RLHF,DeepSeek R1,Openai O1,Alphago的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

嘿,編碼忍者!您當天計劃哪些與編碼有關的任務?在您進一步研究此博客之前,我希望您考慮所有與編碼相關的困境,這是將其列出的。 完畢? - 讓&#8217

介紹 Openai已根據備受期待的“草莓”建築發布了其新模型。這種稱為O1的創新模型增強了推理能力,使其可以通過問題進行思考

介紹 想像一下,穿過美術館,周圍是生動的繪畫和雕塑。現在,如果您可以向每一部分提出一個問題並獲得有意義的答案,該怎麼辦?您可能會問:“您在講什麼故事?

SQL的Alter表語句:動態地將列添加到數據庫 在數據管理中,SQL的適應性至關重要。 需要即時調整數據庫結構嗎? Alter表語句是您的解決方案。本指南的詳細信息添加了Colu

介紹 Mistral發布了其第一個多模式模型,即Pixtral-12b-2409。該模型建立在Mistral的120億參數Nemo 12B之上。是什麼設置了該模型?現在可以拍攝圖像和Tex

陷入困境的基準:駱駝案例研究 2025年4月上旬,梅塔(Meta)揭開了其Llama 4套件的模特,擁有令人印象深刻的性能指標,使他們對GPT-4O和Claude 3.5 Sonnet等競爭對手的良好定位。倫斯的中心

在從事代理AI時,開發人員經常發現自己在速度,靈活性和資源效率之間進行權衡。我一直在探索代理AI框架,並遇到了Agno(以前是Phi-

視頻遊戲可以緩解焦慮,建立焦點或支持多動症的孩子嗎? 隨著醫療保健在全球範圍內挑戰,尤其是在青年中的挑戰,創新者正在轉向一種不太可能的工具:視頻遊戲。現在是世界上最大的娛樂印度河之一
