O1-Mini：一種改變遊戲規則的STEM和推理模型-人工智慧-PHP中文網

概述

O1-Mini與其他LLM

GPT 4O與O1 vs O1 Mini

如何使用O1-Mini？

O1-Mini的出色表現：數學，編碼及其他

數學

編碼

幹

人類偏好評估

O1米尼的安全組件

結尾

首頁

科技週邊

人工智慧

O1-Mini：一種改變遊戲規則的STEM和推理模型

尊渡假赌尊渡假赌尊渡假赌

Apr 13, 2025 am 09:55 AM

OpenAI引入了O1-Mini，這是一種具有成本效益的推理模型，重點是STEM受試者。該模型在數學和編碼中表現出令人印象深刻的性能，與其前身OpenAI O1非常相似，以各種評估基準。 OpenAI預計，O1-Mini將作為要求推理能力的應用程序的迅速而經濟的解決方案，而無需全球知識。 O1-Mini的推出目標是5級API用戶，與OpenAI O1-Preview相比，成本降低了80％。讓我們更深入地了解O1 Mini的工作。

概述

Openai的O1-Mini是一種經濟高效的STEM推理模型，表現優於其同齡人。
專業培訓使O1-Mini成為STEM的專家，在數學和編碼方面表現出色。
人類評估展示了O1-Mini在推理方面的優勢，而不是GPT-4O。
安全措施可確保O1-Mini的負責任使用，並增強越獄的魯棒性。
Openai對O1-Mini的創新提供了可靠且透明的STEM工具。

O1-Mini與其他LLM

LLM通常在大型文本數據集上進行預訓練。但這是捕獲；儘管他們擁有如此廣泛的知識，但有時可能會有些負擔。您會看到，所有這些信息使它們在現實世界中的情況下有點慢且昂貴。

將O1米尼與其他LLM分開的事實是，它接受了STEM的訓練。這種專門的培訓使O1-Mini成為與STEM相關的任務專家。該模型有效且具有成本效益，非常適合STEM應用。它的性能令人印象深刻，尤其是在數學和編碼方面。 O1-Mini是針對莖推理的速度和準確性進行了優化的。對於研究人員和教育者來說，這是一個有價值的工具。

O1-Mini在智能和推理基準方面表現出色，表現優於O1-preiview和O1，但在非莖事實知識任務中掙扎。

O1-Mini：一種改變遊戲規則的STEM和推理模型

另請閱讀：O1：Openai的新模型，該模型在回答棘手的問題之前“思考”

GPT 4O與O1 vs O1 Mini

在單詞推理問題上的響應比較突出了性能差異。雖然GPT-4O掙扎，但O1-Mini和O1-preiview表現出色，提供了準確的答案。值得注意的是，O1-Mini的速度非常出色，回答的速度約為3-5倍。

如何使用O1-Mini？

O1-Mini：一種改變遊戲規則的STEM和推理模型

Chatgpt Plus和團隊用戶：今天從模型選擇器中訪問O1-Mini，每週限制50條消息。
CHATGPT企業和教育用戶：兩種型號的訪問將於下週開始。
開發人員：API Tier 5用戶今天可以嘗試這些模型，但是尚不可用功能呼叫和流式的功能。
免費用戶：O1-Mini將很快提供給所有免費用戶。

O1-Mini的出色表現：數學，編碼及其他

Openai O1-Mini模型已在各種比賽和基準測試中進行了測試，其性能令人印象深刻。讓我們一一看一下不同的組件：

數學

在高中AIME數學比賽中，O1-Mini的得分為70.0％，與更昂貴的O1型號（74.4％）相當，並且明顯優於O1-Preview（44.6％）。該分數將O1-Mini置於美國500名高中學生中，這是一項了不起的成就。

編碼

繼續進行編碼，O1米尼在CodeForces競賽網站上發揮了1650分的ELO分數。該分數與O1（1673）具有競爭力，並且超過O1-Preview（1258）。這將O1-Mini置於在CodeForces平台上競爭的第86個百分位數。此外，O1-Mini在人道編碼的基準和高中網絡安全捕獲範圍挑戰（CTF）上表現良好，進一步鞏固了其編碼能力。

O1-Mini：一種改變遊戲規則的STEM和推理模型

幹

O1-Mini已證明其在需要強大推理技能的各種學術基準中。在GPQA（Science）和Math-500等基準測試中，O1-Mini的表現優於GPT-4O，展示了其在與STEM相關的任務方面的卓越表現。但是，當涉及需要更廣泛知識的任務時，例如MMLU，O1-Mini可能不如GPT-4O的性能。這是因為O1-Mini是針對STEM推理進行了優化的，並且可能缺乏GPT-4O擁有的廣泛世界知識。

O1-Mini：一種改變遊戲規則的STEM和推理模型

人類偏好評估

人類評估者在各個領域的挑戰提示中積極比較了O1-Mini與GPT-4O的表現。結果表明，在較重的推理領域中對O1-Mini的偏愛，但GPT-4O領導著以語言為中心的領域，突出了模型在不同情況下的優勢。

O1-Mini：一種改變遊戲規則的STEM和推理模型

O1米尼的安全組件

O1-MINI模型的安全性和對齊方式對於確保其負責任和道德使用至關重要。這是對實施安全措施的解釋：

訓練技術： O1-Mini的訓練方法反映了其前身O1-preiview的側重於對齊和安全。該策略確保模型的產出與人類價值觀保持一致，並減輕潛在風險，這是其發展的關鍵方面。
越獄魯棒性： O1-Mini的主要安全特徵之一是增強的越獄魯棒性。在內部版本的StrongRepent數據集中，與GPT-4O相比，O1-Mini顯示出越獄的魯棒性59％。越獄的魯棒性是指該模型抵制操縱或濫用其產出的嘗試的能力，以確保其與預期目的保持一致。
安全評估：在部署O1米尼之前，進行了徹底的安全評估。該評估遵循與O1審查相同的方法，其中包括準備措施，外部紅線和全面的安全評估。外部紅色團隊涉及吸引獨立專家以確定潛在的漏洞和安全風險。
詳細的結果：這些安全評估的結果發表在隨附的系統卡中。這種透明度使用戶和研究人員能夠了解該模型的安全措施，並就其使用情況做出明智的決定。該系統卡提供了有關模型的性能，限制和潛在風險的見解，從而確保負責任的部署和使用。