OpenAI发布o1模型突破性能力超越人类专家

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI教程

OpenAI发布o1模型突破性能力超越人类专家

热心网友时间：2026-05-20

转载

OpenAI 发布新旗舰模型GPT-4o！实时交互犹如真人，免费开放

就在深夜，OpenAI 毫无征兆地揭开了其酝酿近半年的新模型面纱。没有预告，没有预热，这款备受瞩目的产品直接登场。

它的正式名称并非此前流传的“草莓”（那只是内部代号），而是被命名为：

为何取名“o1”？OpenAI 的解释是：对于复杂推理任务而言，这是一个意义重大的进步，代表了人工智能能力的新高度。鉴于此，他们决定将计数器重置为1，并将这一系列命名为 OpenAI o1。

这次模型的强悍程度，甚至让 OpenAI 不惜搁置了沿用已久的 GPT 系列命名传统，转而开启一个全新的“o”系列。这足以说明，一场真正的变革已经到来。

毫不夸张地说，OpenAI o1 的发布，标志着 AI 行业正式迈入了一个全新的纪元。那句“我们通往 AGI 的路上，已经没有任何阻碍”，此刻听来，似乎不再遥远。

其逻辑与推理能力的飞跃，通过一组数据对比便能一目了然。

在高水平数学竞赛 AIME 2024 中，GPT-4o 的准确率为 13.4%，而 o1 预览版达到了 56.7%，尚未发布的 o1 正式版更是飙升至 83.3%。在代码竞赛中，GPT-4o 为 11.0%，o1 预览版为 62%，o1 正式版则为 89%。

最令人震撼的是在博士级科学问题基准测试（GPQA Diamond）上：GPT-4o 得分 56.1，人类专家平均水平为 69.7，而 o1 取得了惊人的 78%——全面超越了人类博士专家。这是有史以来首个达成此成就的模型。

这种全面碾压式性能提升的基石，在于“自我对弈强化学习”（Self-play RL）。通过这项技术，o1 学会了打磨其思维链条并优化策略。它能够识别并纠正自己的错误，将复杂问题拆解为简单步骤，并在当前方法无效时尝试其他路径。

本质上，它学会的是人类最核心的思考方式：慢思考。

诺贝尔经济学奖得主丹尼尔·卡尼曼在《思考，快与慢》中详细阐述了这两种模式。快思考（系统1）快速、自动、凭直觉，比如识别表情或做简单计算，这也是过去大模型所擅长的——基于海量数据训练出的快速反应。

而慢思考（系统2）则缓慢、费力、讲逻辑、有意识，比如解复杂数学题、填写税表或做出重大决策。这正是人类智能的精华，也是 AI 通向通用人工智能（AGI）必须跨越的鸿沟。

如今，o1 在这条路上迈出了坚实的一步。它在回答前，会进行反复的思考、拆解、理解和推理，然后才给出最终答案。这种增强的推理能力，在处理科学、编码、数学等领域的复杂问题时，无疑将释放巨大能量。

例如，医疗研究人员可用其注释细胞测序数据，物理学家可用其生成量子光学所需的复杂公式，开发者可用其构建和执行多步骤工作流。o1 本身也将成为一个全新的“数据飞轮”——当答案正确时，其完整的推理链条会转化为高质量的训练数据。以 OpenAI 的用户规模，其进化速度只会越来越快。

目前，o1 模型正逐步向所有 ChatGPT Plus 和 Team 用户开放，未来也考虑向免费用户开放。

它分为两个版本：o1 预览版和 o1-mini。后者更快、更小、更经济，在数学和代码推理上表现不俗，但在世界知识上有所欠缺，适合不需要广泛常识的推理场景。使用限制上，o1 预览版每周 30 条，o1-mini 每周 50 条。从以往“每3小时”的限制变为“每周”限额，侧面印证了该模型的运算成本之高。

对开发者而言，目前仅向已支付1000美元等级的“第5级”开发者开放API，且每分钟限调用20次，功能上也存在一定限制，不过这属于早期阶段的常态。