LLMSの仕組み:補強学習、RLHF、Deepseek R1、Openai O1、Alphago
私のLLMディープダイブのパート2へようこそ。パート1を読んでいない場合は、最初にチェックアウトすることを強くお勧めします。
以前は、LLMをトレーニングする最初の2つの主要な段階を取り上げました。事前トレーニング - 基本モデルを形成するために大規模なデータセットから学習。
- 監視付き微調整(SFT) - 有用にするためにキュレーションされた例でモデルを改良します。
- さて、次の主要な段階に飛び込んでいます: 補強学習(rl)
Andrej Karpathyの広く人気のある3.5時間のYouTubeから参照しました。 AndrejはOpenaiの創設メンバーであり、彼の洞察は金です。 行こう?
補強学習(RL)の目的は何ですか?人間とLLMSは情報を異なって処理します。基本的な算術のように、私たちにとって直感的なことは、テキストをトークンのシーケンスと見なすLLMのためではないかもしれません。逆に、LLMは、トレーニング中に十分な例を見たという理由だけで、複雑なトピックに関する専門家レベルの応答を生成できます。
この認知の違いにより、人間のアノテーターが、LLMを正しい答えに一貫して導く「完璧な」ラベルセットを提供することが困難になります。
rlは、モデルが自分の経験から学習できるようにすることでこのギャップを橋渡しします
。明示的なラベルのみに依存する代わりに、モデルはさまざまなトークンシーケンスを調査し、出力が最も便利なフィードバック(報酬信号)を受信します。時間が経つにつれて、それは人間の意図とよりよく調整することを学びます。
rlの背後にある直感 llmsは確率的です。つまり、応答は固定されていません。同じプロンプトがあっても、出力は確率分布からサンプリングされるために異なります。 並行して数千または数百万の可能な応答を生成することにより、このランダム性を活用できます。モデルが異なるパスを探索しているモデルと考えてください。 私たちの目標は、より良い道をより頻繁に進むように奨励することです。 これを行うには、より良い結果につながるトークンのシーケンスでモデルをトレーニングします。人間の専門家がラベル付きのデータを提供する監視された微調整とは異なり、補強学習により、モデルは それ自体から学ぶことができます。
モデルはどの応答が最適かを発見し、各トレーニングステップの後、そのパラメーターを更新します。時間が経つにつれて、これにより、将来同様のプロンプトが与えられた場合、モデルは高品質の回答を生成する可能性が高くなります。しかし、どの応答が最適かをどのように判断しますか?そして、どのくらいのRLをすべきですか?詳細は注意が必要であり、それらを正しくすることは些細なことではありません。
rlは「新しい」ではありません。人間の専門知識を上回ることができます(Alphago、2016)
RLのパワーの素晴らしい例は、プロのGOプレーヤーを倒し、後に人間レベルのプレイを上回る最初のAIであるDeepMindのAlphagoです。 2016年のネイチャーペーパー(下のグラフ)では、モデルが純粋にSFTによってトレーニングされたとき(モデルの良い例を模倣するための良い例を与えます)、モデルは人間レベルのパフォーマンスに到達することができましたが、
。点線はリー・セドルのパフォーマンスを表しています - 世界で最高のゴープレーヤー。
これは、SFTがイノベーションではなく複製に関するものであるためです。モデルが人間の知識を超えて新しい戦略を発見することはできません。しかし、RLは、Alphagoがそれ自体に対抗し、その戦略を改良し、最終的に
を超えることを可能にしました(青い線)。 rlは、AIのエキサイティングなフロンティアを表しています。モデルは、多様で挑戦的な問題のプールで訓練するときに人間の想像力を超えた戦略を探求することができます。 RLファンデーション要約
典型的なRLセットアップの主要なコンポーネントをすばやく再び要約しましょう:

エージェント
-

- 状態
- )を観察し、アクションを選択してから、結果に基づいてその動作を更新します(報酬)。 環境 - エージェントが動作する外部システム。 state - 特定のステップでの環境のスナップショット
- t。 各タイムスタンプで、エージェントは環境を新しい状態に変える環境で、アクション
- を実行します。エージェントはまた、アクションがどれほど良いか悪いかを示すフィードバックを受け取ります。 このフィードバックは、報酬さまざまな状態とアクションからのフィードバックを使用することにより、エージェントは徐々に最適な戦略を学び、ポリシー
数学的用語では、特定の状態の異なる出力の確率を決定する関数です - (πθ(a | s))
値関数
長期的な予想される報酬を考慮して、特定の状態にいることがどれほど良いかの推定。 LLMの場合、報酬は人間のフィードバックまたは報酬モデルから得られる可能性があります。
俳優 - 批評家アーキテクチャ2つのコンポーネントを組み合わせた人気のあるRLセットアップです。
- 俳優
- - 各状態でどのアクションを取るかを決定し、ポリシー(πθ)を学び、更新します。 批評家 -
- 値関数(v(s))を評価して、選択したアクションが良い結果につながっているかどうかについて俳優にフィードバックを与える。 それがどのように機能するか:
俳優
は、現在のポリシーに基づいてアクションを選択します。- 批評家は結果を評価し(次の状態に報いる)、その値の見積もりを更新します。 批評家のフィードバックは、俳優がポリシーを改良するのに役立ち、将来の行動がより高い報酬につながるようにします。
- llmsのためにすべてをまとめます 状態は現在のテキスト(プロンプトまたは会話)になる可能性があり、アクションは次のトークンになる可能性があります。報酬モデル(たとえば、人間のフィードバック)は、モデルに生成されたテキストがどれほど良いか悪いかを伝えます。 ポリシーは次のトークンを選択するためのモデルの戦略であり、値関数は、最終的に高品質の応答を生成するという点で、現在のテキストのコンテキストがどれほど有益であるかを推定します。
- deepseek-r1(2025年1月22日公開) RLの重要性を強調するために、オープンソースのままで一流のパフォーマンスを達成する推論モデルであるDeepSeek-R1を探索しましょう。このペーパーでは、2つのモデルを導入しました:
deepseek-r1-zeroは、大規模なRLを介してのみ訓練され、監視された微調整(SFT)をスキップしました。
deepseek-r1がそれに基づいて構築され、遭遇した課題に対処しました。
これらの重要なポイントのいくつかに飛び込みましょう。
1。 RLアルゴ:グループ相対ポリシーの最適化(GRPO) RLアルゴリズムを変更する重要なゲームの1つは、広く人気の近位ポリシー最適化(PPO)のバリアントであるグループ相対ポリシー最適化(GRPO)です。 GRPOは2024年2月にDeepseekmath Paperで紹介されました。
- なぜPPO? PPOは、次のような推論タスクに苦労しています
- 批評家モデルへの依存。
RLパイプラインが応答を評価および最適化するために相当なリソースを要求するため、
高い計算コスト。 絶対的な報酬の評価
絶対的な報酬に依存している場合 - 答えが「良い」か「悪い」かどうかを判断するための単一の標準またはメトリックがある場合、異なる推論ドメインにわたってオープンエンドの多様なタスクのニュアンスをキャプチャするのは難しい場合があります。 - GRPOがこれらの課題にどのように対処したか:
grpoは、相対評価を使用して批評家モデルを排除します - 回答は、固定標準で判断されるのではなく、グループ内で比較されます。 生徒が問題を解決していると想像してください。教師が個別に格付けする代わりに、彼らは答えを比較し、お互いから学びます。時間が経つにつれて、パフォーマンスはより高い品質に向かって収束します
grpoはトレーニングプロセス全体にどのように適合しますか?GRPOは、他のトレーニングステップを変更せずに損失を計算する方法を変更します:
データの収集(クエリの応答)
報酬を割り当てる - グループ内の各応答が採点されます(「報酬」)。
grpo損失を計算します
-
伝統的に、モデルの予測と真のラベルの偏差を示す損失を計算します。さらに悪いですか?c)クリッピングを適用して、極端な更新を防止します。
バック伝播勾配勾配降下
- - バック伝播は、各パラメーターが損失に貢献した方法を計算します。 新しいポリシーと一致するように古いポリシーを時々更新
- 。
2。チェーンの思考(COT)
従来のLLMトレーニングは、トレーニング前→SFT→RLに続きます。ただし、deepseek-r1-zerosft
をスキップして、モデルがCOTの推論を直接探索できるようにします。人間が厳しい質問をしているように、COTを使用すると、モデルは問題を中間ステップに分割し、複雑な推論能力を高めます。 OpenaiのO1モデルは、2024年9月のレポートで述べたように、これを活用しています:O1のパフォーマンスは、より多くのRL(トレインタイム計算)とより多くの推論時間(テスト時間計算)で改善されます。 deepseek-r1-zeroは反射的傾向を示し、その推論を自律的に改善しました
論文のキーグラフ(下)は、トレーニング中の思考の増加を示し、より長い(より多くのトークン)、より詳細かつより良い応答につながりました。明示的なプログラミングがなければ、過去の推論ステップを再検討し始め、精度を向上させました。これは、RLトレーニングの新たな財産としての考え方の推論を強調しています。 モデルには「ahaの瞬間」(以下)もありました。これは、RLが予期しない洗練された結果につながる方法の魅力的な例です。 注:deepseek-r1とは異なり、Openaiは蒸留リスクを懸念しているため、O1で完全に正確な推論チェーンを示していません。代わりに、O1はこれらの思考チェーンの要約だけです。
人間のフィードバック(RLHF)を使用した補強学習検証可能な出力(数学の問題、事実Q&Aなど)のタスクの場合、AI応答は簡単に評価できます。しかし、「正しい」答えが1つもないような概要や創造的な執筆のような領域はどうですか?
いくつかの任意の数字で素朴なアプローチを見てみましょう。
それには10億の人間の評価が必要です!これは、コストがかかりすぎて、ゆっくりと、無視できません。したがって、より賢い解決策は、人間の好みを学ぶためにAIの「報酬モデル」を訓練し、劇的に人間の努力を減らすことです。
ランキング応答も、絶対的なスコアリングよりも簡単で直感的です。rlhf
の上端- クリエイティブライティング、詩、要約、その他のオープンエンドタスクなど、任意のドメインに適用できます。 ランキング出力は、創造的な出力を生成するよりも、人間のラベルの方がはるかに簡単です。
- RLHF の欠点
報酬モデルは近似です - 人間の好みを完全に反映していない場合があります。
- rlは報酬モデルのゲームに適しています - 長すぎると実行された場合、モデルは抜け穴を悪用し、まだ高いスコアを取得する無意味な出力を生成する可能性があります。
- rlhfは従来のrlと同じではないことに注意してください。
結論 そしてそれはラップです!パート2を楽しんだことを願っていますか?パート1をまだ読んでいない場合は、こちらをチェックしてください。 次にカバーすべきことについて質問やアイデアがありますか?コメントにそれらを落としてください - 私はあなたの考えを聞きたいです。次の記事でお会いしましょう!
以上がLLMSの仕組み:補強学習、RLHF、Deepseek R1、Openai O1、Alphagoの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











メタのラマ3.2:マルチモーダルとモバイルAIの前進 メタは最近、ラマ3.2を発表しました。これは、モバイルデバイス向けに最適化された強力なビジョン機能と軽量テキストモデルを特徴とするAIの大幅な進歩です。 成功に基づいてo

ねえ、忍者をコーディング!その日はどのようなコーディング関連のタスクを計画していますか?このブログにさらに飛び込む前に、コーディング関連のすべての問題について考えてほしいです。 終わり? - &#8217を見てみましょう

今週のAIの風景:進歩、倫理的考慮、規制の議論の旋風。 Openai、Google、Meta、Microsoftのような主要なプレーヤーは、画期的な新しいモデルからLEの重要な変化まで、アップデートの急流を解き放ちました

Shopify CEOのTobiLütkeの最近のメモは、AIの能力がすべての従業員にとって基本的な期待であると大胆に宣言し、会社内の重大な文化的変化を示しています。 これはつかの間の傾向ではありません。これは、pに統合された新しい運用パラダイムです

導入 Openaiは、待望の「Strawberry」アーキテクチャに基づいて新しいモデルをリリースしました。 O1として知られるこの革新的なモデルは、推論能力を強化し、問題を通じて考えられるようになりました

導入 鮮やかな絵画や彫刻に囲まれたアートギャラリーを歩くことを想像してください。さて、各ピースに質問をして意味のある答えを得ることができたらどうでしょうか?あなたは尋ねるかもしれません、「あなたはどんな話を言っていますか?

メタのラマ3.2:マルチモーダルAIパワーハウス Metaの最新のマルチモーダルモデルであるLlama 3.2は、AIの大幅な進歩を表しており、言語理解の向上、精度の向上、および優れたテキスト生成機能を誇っています。 その能力t

私のコラムに新しいかもしれない人のために、具体化されたAI、AI推論、AIのハイテクブレークスルー、AIの迅速なエンジニアリング、AIのトレーニング、AIのフィールディングなどのトピックなど、全面的なAIの最新の進歩を広く探求します。
