当前位置: 首页
AI教程
OpenAI发布o1模型突破性能力超越人类专家

OpenAI发布o1模型突破性能力超越人类专家

热心网友 时间:2026-05-20
转载

OpenAI 发布新旗舰模型GPT-4o!实时交互犹如真人,免费开放

就在深夜,OpenAI 毫无征兆地揭开了其酝酿近半年的新模型面纱。没有预告,没有预热,这款备受瞩目的产品直接登场。

它的正式名称并非此前流传的“草莓”(那只是内部代号),而是被命名为:

为何取名“o1”?OpenAI 的解释是:对于复杂推理任务而言,这是一个意义重大的进步,代表了人工智能能力的新高度。鉴于此,他们决定将计数器重置为1,并将这一系列命名为 OpenAI o1。

这次模型的强悍程度,甚至让 OpenAI 不惜搁置了沿用已久的 GPT 系列命名传统,转而开启一个全新的“o”系列。这足以说明,一场真正的变革已经到来。

毫不夸张地说,OpenAI o1 的发布,标志着 AI 行业正式迈入了一个全新的纪元。那句“我们通往 AGI 的路上,已经没有任何阻碍”,此刻听来,似乎不再遥远。

其逻辑与推理能力的飞跃,通过一组数据对比便能一目了然。

在高水平数学竞赛 AIME 2024 中,GPT-4o 的准确率为 13.4%,而 o1 预览版达到了 56.7%,尚未发布的 o1 正式版更是飙升至 83.3%。在代码竞赛中,GPT-4o 为 11.0%,o1 预览版为 62%,o1 正式版则为 89%。

最令人震撼的是在博士级科学问题基准测试(GPQA Diamond)上:GPT-4o 得分 56.1,人类专家平均水平为 69.7,而 o1 取得了惊人的 78%——全面超越了人类博士专家。这是有史以来首个达成此成就的模型。

这种全面碾压式性能提升的基石,在于“自我对弈强化学习”(Self-play RL)。通过这项技术,o1 学会了打磨其思维链条并优化策略。它能够识别并纠正自己的错误,将复杂问题拆解为简单步骤,并在当前方法无效时尝试其他路径。

本质上,它学会的是人类最核心的思考方式:慢思考。

诺贝尔经济学奖得主丹尼尔·卡尼曼在《思考,快与慢》中详细阐述了这两种模式。快思考(系统1)快速、自动、凭直觉,比如识别表情或做简单计算,这也是过去大模型所擅长的——基于海量数据训练出的快速反应。

而慢思考(系统2)则缓慢、费力、讲逻辑、有意识,比如解复杂数学题、填写税表或做出重大决策。这正是人类智能的精华,也是 AI 通向通用人工智能(AGI)必须跨越的鸿沟。

如今,o1 在这条路上迈出了坚实的一步。它在回答前,会进行反复的思考、拆解、理解和推理,然后才给出最终答案。这种增强的推理能力,在处理科学、编码、数学等领域的复杂问题时,无疑将释放巨大能量。

例如,医疗研究人员可用其注释细胞测序数据,物理学家可用其生成量子光学所需的复杂公式,开发者可用其构建和执行多步骤工作流。o1 本身也将成为一个全新的“数据飞轮”——当答案正确时,其完整的推理链条会转化为高质量的训练数据。以 OpenAI 的用户规模,其进化速度只会越来越快。

目前,o1 模型正逐步向所有 ChatGPT Plus 和 Team 用户开放,未来也考虑向免费用户开放。

它分为两个版本:o1 预览版和 o1-mini。后者更快、更小、更经济,在数学和代码推理上表现不俗,但在世界知识上有所欠缺,适合不需要广泛常识的推理场景。使用限制上,o1 预览版每周 30 条,o1-mini 每周 50 条。从以往“每3小时”的限制变为“每周”限额,侧面印证了该模型的运算成本之高。

对开发者而言,目前仅向已支付1000美元等级的“第5级”开发者开放API,且每分钟限调用20次,功能上也存在一定限制,不过这属于早期阶段的常态。

API 定价方面,o1 预览版为每百万输入 tokens 15美元,每百万输出 tokens 60美元,推理成本显著。

o1-mini 相对便宜,每百万输入 tokens 3美元,输出12美元。

输出成本均为推理成本的4倍。作为对比,GPT-4o 的对应价格是5美元和15美元。

o1-mini 已初具经济性,但市场显然在期待 OpenAI 后续的“降价大招”。

那么,实际体验如何?拿到权限后,第一时间进行了测试。目前模型功能较为“纯净”,不支持图像理解、生成、代码解释器或联网搜索,仅为一个对话裸模型。

首先是一个经典逻辑题:“农夫需要把狼、羊和白菜带过河,每次只能带一样,且狼和羊、羊和白菜不能单独相处,问如何过河。”

模型思考约6秒后,给出了完美解答。

接着是曾难倒众多大模型的“中国调休问题”:“2024年9月9日(周一)至10月13日的安排为:上6休3上3休2上5休1上2休7再上5休1。问除正常周末外,因放假多休了几天?”

o1 沉思了整整30秒,最终给出了精确无误的答案。

最后,祭出一道曾出现在数学竞赛中的难题(原题涉及专业符号,此处不赘述):

这道题曾让此前所有主流模型折戟。让 o1 尝试后:

经过一分钟以上的漫长思考,它给出了答案。

完全正确。

这带来一个有趣的启示:提示词工程可能面临重塑。在 GPT 为代表的“快思考”模型时代,我们惯用的“逐步思考”等技巧,对 o1 不仅无效,甚至可能产生负面影响。OpenAI 官方建议是:保持提示简洁直接;避免思维链提示;使用分隔符提高清晰度;在检索增强生成中限制附加上下文,仅提供最相关信息。

最后,值得深思的是“思考时长”的意义。目前 o1 思考一分钟已令人惊叹,但试想,若未来的 AGI 为证明一个数学定理、研发一款抗癌药物或解析天体物理难题,而进行长达数小时、数日甚至数周的“思考”呢?其结果或许将碘伏所有人的认知。

o1 的未来,绝不仅仅是一个更强大的聊天机器人。它更像一块基石,为我们通往下一个时代铺平了道路。那句“通往 AGI 的路上已无阻碍”,如今看来,正从一个愿景加速照进现实。

一个星光熠熠的新时代,或许就在今天,拉开了序幕。

来源:https://www.uisdc.com/openai-o1

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
AI写作革命:人工智能如何重塑内容创作领域

AI写作革命:人工智能如何重塑内容创作领域

数字浪潮奔涌,人工智能技术正以前所未有的速度重塑各个领域。其中,AI文章生成技术如同一股新锐力量,悄然改变着写作行业的生态。它究竟是一场效率革命,还是对创作本质的挑战?本文将深入探讨这项技术的核心、应用及其带来的深远影响。 AI文章生成技术是什么? 简单来说,这是一种让人工智能学会“写作”的技术。它

时间:2026-05-20 15:12
AI字体设计工具推荐:5款神器提升你的设计效率

AI字体设计工具推荐:5款神器提升你的设计效率

近年来,AI绘画领域的一个显著趋势是:与字体设计相关的图像作品正大量涌现,其中不乏视觉效果惊艳的艺术字创作。在过去,要设计出如此精致且富有创意的艺术字体,通常需要专业的设计技能和大量的时间投入。然而,现在情况已截然不同——通过简单的文本描述,AI就能直接生成高质量字体效果,极大地提升了设计效率。同时

时间:2026-05-20 15:12
三种方法教你准确判断AI生成内容

三种方法教你准确判断AI生成内容

如今,生成式AI工具如ChatGPT已深度融入日常工作和生活,从撰写文案、编写代码到生成分析报告,甚至规划个人事务,其应用场景日益广泛。然而,一个普遍存在的疑问也随之而来:AI生成的内容究竟靠不靠谱?我们能否完全信赖它的输出?又该如何判断它给出的答案是否正确? 事实上,AI的输出并非总是完美。要有效

时间:2026-05-20 15:12
人工智能文献综述:未来趋势与应用领域深度解析

人工智能文献综述:未来趋势与应用领域深度解析

人工智能(AI)已成为驱动全球科技创新的核心引擎,从智能手机的语音助手到自动驾驶技术,再到电商平台的个性化推荐,AI正深度重塑我们的生活方式与商业模式。本文将深入解析人工智能的发展历程、当前主流趋势及其在关键行业的落地应用,为您全面揭示这场智能革命的现状与未来。 人工智能的发展历程与演进 人工智能的

时间:2026-05-20 15:10
智能文档助手:高效创作与管理指南

智能文档助手:高效创作与管理指南

长时间撰写文档感到疲惫不堪?频繁的拼写错误和语法问题是否也让你头疼?现在,这一切都有了高效的解决方案。随着人工智能技术的飞速发展,一种名为“AI文档助手”的智能工具,正迅速成为企业和个人提升写作效率、优化内容质量的核心利器。 那么,AI文档助手究竟是什么?简单来说,它是一个基于先进自然语言处理(NL

时间:2026-05-20 15:10
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程