目录
概述
目录
有什么大不了的?
Openai O1的用例
令人印象深刻的测试结果
高级数学比赛
科学专业知识
编码
其他基准和视觉理解
了解视觉信息(视觉感知)
医学成像测试(MMMU基准)
广泛的知识(MMLU基准)
认识O1-Mini
使用O1 mini的数学
谁可以使用O1-preiview?
如何访问O1-preview?
安全也很重要
接下来是什么?
最后的想法
首页 科技周边 人工智能 Openai O1:一种在回答问题之前'思考”的新模型

Openai O1:一种在回答问题之前'思考”的新模型

Apr 13, 2025 am 09:26 AM

你听到了大新闻吗? Openai刚刚推出了一系列新型AI模型的预览 - OpenAi O1 (也称为草莓/Q*)。这些模型很特别,因为它们在给您答案之前花费更多的时间“思考”。这意味着与早期模型相比,他们更好地解决了科学,编码和数学等领域的真正棘手问题,这在很大程度上要归功于先进的OpenAI O1参数

Openai以O1系列的方式将座右铭“思考”以“思考”

概述

  • Openai的新O1模型系列在数学,科学和编码方面的棘手问题上表现出色,使以前的版本超出了以前的版本。
  • O1概览模型可以解决高级任务,解决了93%的AIME数学问题并超过了科学基准的人类专家。这些成功的大部分取决于如何有效地设置OpenAI O1参数来处理复杂的任务。
  • Openai的O1-Mini以80%的成本提供了强大的编码功能,使其成为开发人员的可访问工具。
  • 通过改进的安全措施,O1模型确保了负责的AI使用,同时为研究人员,开发人员和教育者提供了增强的问题。

目录

  • 有什么大不了的?
  • Openai O1的用例
  • 令人印象深刻的测试结果
    • 高级数学比赛
    • 科学专业知识
    • 编码
    • 其他基准和视觉理解
  • 认识O1-Mini
  • 使用O1 mini的数学
  • 谁可以使用O1-preiview?
  • 如何访问O1-preview?
  • 安全也很重要
  • 接下来是什么?
  • 最后的想法

有什么大不了的?

O1-preiview模型经过训练,可以退后一步,并真正思考事物,就像面临棘手的问题时人类一样。他们考虑了不同的方法,完善自己的想法,甚至在此过程中遇到自己的错误。这种更深层次的思维水平使他们能够解决旧模型无法应付的问题。

Openai O1的用例

用Openai O1编码

用Openai O1编写难题

HTML蛇与Openai O1

令人印象深刻的测试结果

要查看与较早的GPT-4O模型相比,O1的更好,OpenAI使他们通过一系列艰难的测试,包括人类考试和机器学习基准。猜猜是什么? O1在大多数这些推理的任务中的表现都优于GPT-4O!

让我们分解一些结果:

高级数学比赛

他们在AIME(美国邀请赛数学考试)上测试了模型,这是美国顶尖学生的超级挑战性数学考试

  • GPT-4O :解决了大约12%的问题(大约15个问题中的1.8个)。
  • Openai O1 :每次尝试仅一尝试就解决了74% (大约15个中的11.1)。当他们让模型多次尝试并取出最常见的答案时,它得分为83% 。使用更高级的方法,它达到了93% ,解决了15个问题中约13.9个!

综上所述,在全国500名学生中,将获得13.9的成绩,超过美国数学奥林匹克运动会的临界。那是一些严重的脑力!

科学专业知识

他们还评估了O1在GPQA-Diamond上的O1,这是一种艰难的基准测试,可测试化学,物理学和生物学方面的知识。 Openai甚至引进了博士学位的专家来回答这些问题。

  • 结果:O1优于这些人类专家,成为第一个在此基准下这样做的AI模型!这表明O1可以在很高的水平上解决复杂的科学问题。

编码

在诸如CodeForces之类的编码竞赛中,新模型达到了第89个百分位,表明它们可以轻松生成和调试复杂的代码。

Openai O1:一种在回答问题之前'思考”的新模型

其他基准和视觉理解

但这不是全部! O1模型还显示了其他领域的显着改善:

了解视觉信息(视觉感知)

O1模型现在可以解释和理解图像 - 一种称为视觉感知的功能。这意味着它可以分析视觉数据并回答有关它的问题,这对于AI来说是一大步。

医学成像测试(MMMU基准)

Openai在一个名为MMMU的具有挑战性的基准上测试了O1(该基准(该基准)代表了多模式的医疗机器理解)。该测试评估了AI可以理解医学图像并进行准确评估的程度,类似于医疗专业人员执行的任务。

结果:O1在此测试中得分78.2% ,这使其成为第一个以与人类医学成像专家相当的水平执行的AI模型。这很大,因为理解和解释医学图像需要深厚的知识和精度。

广泛的知识(MMLU基准)

还对O1模型进行了测试,该模型在MMLU(大量的多任务语言理解)基准上进行了测试,该基准涵盖了57个不同的主题,从历史和文学到数学和计算机科学。

结果:O1在57名受试者中有54位优于GPT-4O!这表明O1不仅在一个领域中专业,还表明了广泛主题的理解得到了提高。

Openai O1:一种在回答问题之前'思考”的新模型

用更简单的话来说,O1能够同时了解文本和图像的能力意味着它变得更加通用和有能力。无论是分析复杂的医学图像,解决高级数学问题还是在各种主题上回答问题,O1都为AI做些什么制定了新的标准。

认识O1-Mini

Openai还推出了O1-Mini ,这是O1-Preigiew模型的较小,更快,更实惠的版本,特别擅长编码任务。它便宜80% ,这是对于需要强大推理能力的开发人员而无需破坏银行的开发人员的绝佳选择。

我们还发布了Openai O1-Mini,这是一种具有成本效益的推理模型,在STEM上表现出色,尤其是数学和编码。

- 2024年9月12日Openai(@Openai)

使用O1 mini的数学

另请阅读:Openai的O1-Mini:具有成本效益推理的STEM的改变游戏规则的模型

谁可以使用O1-preiview?

这些新型号是针对任何处理复杂问题的人的游戏规则改变者:

  • 研究人员和科学家:它们可以帮助注释细胞测序数据或在量子物理等领域中产生所需的复杂公式。
  • 开发人员:构建和执行多步骤工作流变得更加容易,更高效。
  • 学生和教育工作者:他们提供了一种探索数学和科学中具有挑战性概念的新方法。

如何访问O1-preview?

Chatgpt Plus和团队用户:您可以从今天开始访问ChatGPT中的O1-preview和O1-Mini模型。只需从模型选择器中选择它们即可。目前有每周的消息限制(O1-preiview的30条消息,O1-Mini的50条消息),但Openai正在努力尽快增加这些限制。

Openai O1:一种在回答问题之前'思考”的新模型

  • CHATGPT Enterprise和EDU用户:从下周开始,您将可以访问这两种型号。
  • 开发人员:如果您处于API使用层5,则可以立即通过API开始尝试这些模型。某些功能诸如函数调用和流媒体之类的功能尚不可用,但是它们正在路上。
  • chatgpt免费用户:好消息! OpenAI计划使所有自由用户都可以使用O1-Mini。

安全也很重要

Openai还通过这些型号提高了安全功能。他们已经接受了培训,以更好地理解和遵循安全指南,通过对对话期间的规则进行推理。这意味着他们不太可能被欺骗去做他们不应该做的事情(您可能听说过“越狱”的AI模型)。

在艰难的安全测试中,O1-preview模型得分为100分,而GPT-4O的得分为22 。这是一个重大的改进,表明他们倾向在安全和适当的界限范围内更好。

Openai与美国和英国的安全组织紧密合作,他们甚至鉴于这些机构的早期访问模型,以帮助研究并确保一切都达到标准。

接下来是什么?

这只是开始。 Openai正在计划对这些模型进行定期更新和改进。他们正在寻找添加诸如浏览网络,上传文件和图像之类的功能,以及更多的功能,以使它们更有帮助。

他们还继续在GPT系列中与这个新的O1系列一起开发模型,因此有很多期待。

最后的想法

在AI世界中,O1-preview和O1-Mini模型的推出是一件大事。它们代表了AI如何通过复杂问题推理的重要一步。通过更好的性能和增强的安全措施,这些模型将成为许多从事挑战任务的人的游戏改变者。

请继续关注Analytics Vidhya博客,以了解有关O1和O1 Mini的用途的更多信息!

以上是Openai O1:一种在回答问题之前'思考”的新模型的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

热门话题

Java教程
1661
14
CakePHP 教程
1418
52
Laravel 教程
1311
25
PHP教程
1261
29
C# 教程
1234
24
开始使用Meta Llama 3.2 -Analytics Vidhya 开始使用Meta Llama 3.2 -Analytics Vidhya Apr 11, 2025 pm 12:04 PM

Meta的Llama 3.2:多模式和移动AI的飞跃 Meta最近公布了Llama 3.2,这是AI的重大进步,具有强大的视觉功能和针对移动设备优化的轻量级文本模型。 以成功为基础

10个生成AI编码扩展,在VS代码中,您必须探索 10个生成AI编码扩展,在VS代码中,您必须探索 Apr 13, 2025 am 01:14 AM

嘿,编码忍者!您当天计划哪些与编码有关的任务?在您进一步研究此博客之前,我希望您考虑所有与编码相关的困境,这是将其列出的。 完毕? - 让&#8217

AV字节:Meta' llama 3.2,Google的双子座1.5等 AV字节:Meta' llama 3.2,Google的双子座1.5等 Apr 11, 2025 pm 12:01 PM

本周的AI景观:进步,道德考虑和监管辩论的旋风。 OpenAI,Google,Meta和Microsoft等主要参与者已经释放了一系列更新,从开创性的新车型到LE的关键转变

向员工出售AI策略:Shopify首席执行官的宣言 向员工出售AI策略:Shopify首席执行官的宣言 Apr 10, 2025 am 11:19 AM

Shopify首席执行官TobiLütke最近的备忘录大胆地宣布AI对每位员工的基本期望是公司内部的重大文化转变。 这不是短暂的趋势。这是整合到P中的新操作范式

GPT-4O vs OpenAI O1:新的Openai模型值得炒作吗? GPT-4O vs OpenAI O1:新的Openai模型值得炒作吗? Apr 13, 2025 am 10:18 AM

介绍 Openai已根据备受期待的“草莓”建筑发布了其新模型。这种称为O1的创新模型增强了推理能力,使其可以通过问题进行思考

视觉语言模型(VLMS)的综合指南 视觉语言模型(VLMS)的综合指南 Apr 12, 2025 am 11:58 AM

介绍 想象一下,穿过​​美术馆,周围是生动的绘画和雕塑。现在,如果您可以向每一部分提出一个问题并获得有意义的答案,该怎么办?您可能会问:“您在讲什么故事?

如何在SQL中添加列? - 分析Vidhya 如何在SQL中添加列? - 分析Vidhya Apr 17, 2025 am 11:43 AM

SQL的Alter表语句:动态地将列添加到数据库 在数据管理中,SQL的适应性至关重要。 需要即时调整数据库结构吗? Alter表语句是您的解决方案。本指南的详细信息添加了Colu

最新的最佳及时工程技术的年度汇编 最新的最佳及时工程技术的年度汇编 Apr 10, 2025 am 11:22 AM

对于那些可能是我专栏新手的人,我广泛探讨了AI的最新进展,包括体现AI,AI推理,AI中的高科技突破,及时的工程,AI培训,AI,AI RE RE等主题

See all articles