Deepseek R1：Openai O1最大の競争相手がここにいます！-AI-php.cn

ホームページ

テクノロジー周辺機器

Deepseek R1：Openai O1最大の競争相手がここにいます！

William Shakespeare

Mar 09, 2025 pm 12:01 PM

Deepseek AIの画期的なDeepSeek R1推論モデルは、生成AIを再定義します。強化学習（RL）とオープンソースアプローチを活用して、DeepSeek R1は、研究者と開発者がグローバルにアクセスできる高度な推論機能を提供します。ベンチマークテストでは、ライバルが示されており、場合によってはOpenaiのO1モデルを上回り、OpenaiのLLM優位性に挑戦しています。さらに探索しましょう！

？ deepseek-r1が到着しました！

⚡パフォーマンスはOpenai-O1と一致します？完全にオープンソースモデルとテクニカルレポート？ MITライセンス：研究および商業用使用は無料！

？ウェブサイトとAPIはライブです！ https://www.php.cn/link/5d4d48d0359e45e4fdfdf997818d6407fd今日！
？ 1/n
pic.twitter.com/7blpwapu6y
- deepseek（@deepseek_ai）2025年1月20日

へのアクセス

deepseek r1？とは何ですか

Deepseek R1は、生成AIシステム内の推論を優先する大規模な言語モデル（LLM）です。高度な強化学習（RL）技術は、その機能を強化します

LLMの推論が大幅に改善され、監督された微調整（SFT）への依存度が最小限に抑えられます。

deepseek-r1トレーニング

DeepSeek R1: OpenAI o1 Biggest Competitor is HERE!

1。補強学習

deepseek-r1-zeroは、補強学習（RL）のみを使用し、SFTを上訴します。このアプローチは、モデルが自己検証、反省、考え方（COT）の推論を含む高度な推論スキルを独立して開発することを奨励しています。

報酬システム

報酬は、タスク固有のベンチマークの精度に基づいています

二次報酬は、構造化された、明確な、および一貫した推論出力を奨励します

拒絶サンプリング

RL中に、複数の推論パスが生成され、最高のパフォーマンスのパスがさらにトレーニングを導きます。

2。ヒトが解決したデータを使用したコールドスタート初期化

広範なCOT推論のヒトではなく、DeepSeek-R1トレーニングを初期化する例。これにより、ユーザーの期待と読みやすさと調整が保証されますこのステップは、純粋なRL（断片化または曖昧な出力を生成する可能性がある）と高品質の推論の間のギャップを橋渡しします。
3。マルチステージトレーニングパイプライン

ステージ1：コールドスタートデータ事前削除：

ステージ2：補強学習：モデルはRLタスクに取り組み、正確性、コヒーレンス、アライメントの報酬を獲得します。
ステージ3：拒否サンプリングを備えた微調整：システムは、最適な推論パターンを出力および強化します。
4。蒸留

大きなモデルは小さなバージョンに蒸留され、推論パフォーマンスを維持しながら計算コストを大幅に削減します。

蒸留モデルは、パフォーマンスの大幅な損失なしに、deepseek-r1のような、より大きなカウンターパートの機能を継承します。

deepseek r1モデル

コアモデル

deepseek-r1-zero：

sftなしで、ベースモデルでRLのみを介して訓練されています。自己検証や反省などの高度な推論行動を示し、AIME 2024やCodeforcesなどのベンチマークで強力な結果を達成します。課題には、コールドスタートデータの欠如と構造化された微調整による読みやすさと言語の混合が含まれます。

deepseek-r1：

は、初期化を改善するためにコールドスタートデータ（ヒトが発表した長いCOTの例）を組み込むことにより、deepseek-r1-zeroに基づいて構築されます。推論指向のRLや、より良い人間のアライメントのための拒絶サンプリングなど、マルチステージトレーニングを採用しています。

OpenaiのO1-1217と直接競合し、達成：

aime 2024：@1スコア79.8％を渡し、O1-1217をわずかに超えています

math-500

：O1-1217に匹敵する@1スコア97.3％を渡します DeepSeek R1: OpenAI o1 Biggest Competitor is HERE!

それは知識集約型およびステムのタスクとコーディングの課題に優れています。

deepseek-aiは、R1モデルの蒸留バージョンもリリースされ、小規模で計算効率の良いモデルが大規模なカウンターパートの推論能力を保持するようにします。これらには、QwenおよびLlamaシリーズモデルが含まれます。これらの小規模なモデルは、QWQ-32B-PREVIEWなどのオープンソースの競合他社よりも優れていますが、OpenaiのO1-Miniなどの独自モデルと効果的に競合しています。

deepseek r1キー機能

deepseek-r1モデルのライバル大手LLMS。 AIME 2024、Math-500、CodeForcesなどのベンチマークは、OpenaiのO1-1217およびAnthropicのClaude Sonnet 3と比較して競争力のあるパフォーマンスまたは優れたパフォーマンスを示しています。

r1 へのアクセス

Web Access：に移動します：https://www.php.cn/link/9f3ad7a14cd3d1cf5d73e8ec7205e7f1