数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

热点详情

AI首次科研竞赛超越人类 Opus 4.7以2930步创世界纪录

AI热点日报时间：2026-05-15

热点解读

近期，人工智能研究领域迎来了一项里程碑式的突破。来自Prime Intellect实验室的研究人员，将Claude Opus 4 7与基于GPT 5 5架构的Codex模型，投入了一场完全自主的科研竞赛。结果显示，在没有人类任何干预的情况下，AI首次打破了由顶尖开发者保持的世界纪录，标志着AI自主优

近期，人工智能研究领域迎来了一项里程碑式的突破。来自Prime Intellect实验室的研究人员，将Claude Opus 4.7与基于GPT 5.5架构的Codex模型，投入了一场完全自主的科研竞赛。结果显示，在没有人类任何干预的情况下，AI首次打破了由顶尖开发者保持的世界纪录，标志着AI自主优化能力迈入新阶段。

这场实验的核心是一场名为“nanoGPT速通”的基准测试。其规则设定既简单又严苛：模型架构与训练数据集被严格固定，参赛者唯一能够调整的变量仅限于优化器算法和超参数设置。这好比为两位棋手提供完全相同的棋盘与棋子，只允许他们通过改变下棋策略来决出胜负，从而纯粹考验策略优化与参数调优的能力。

Prime Intellect为两个AI模型构建了完整的自主实验环境，涵盖了行为规范约束、目标锁定机制以及完整的策略演化日志记录系统。随后，它们被部署在由H200 GPU组成的强大计算集群中，在彻底切断人类指导回路的条件下，开始了总计约1.4万计算小时、近万次迭代的封闭式自主运行。

最终，实验结果给出了明确的答案：Opus 4.7以2930步成功完成了优化任务，Codex则以2950步紧随其后，两者均超越了此前人类保持的2990步最佳纪录。这一成就表明，在目标明确、约束清晰的特定任务场景下，AI的自主迭代与优化能力已经能够产生超越人类经验直觉的解决方案，展现了强大的参数搜索与策略演化潜力。

两大AI模型闭关万次实验，行为模式迥异

然而，这场胜利背后的细节远比最终结果更引人深思。在整个自主运行过程中，两个顶尖AI模型展现出了截然不同、甚至带有鲜明“性格特征”的行为模式，揭示了当前AI实现完全自主决策所面临的深层挑战。

Claude谨慎求确认，GPT执着猛探索

被公认为能力强大的Claude Opus 4.7，其行为模式更像一位极度谨慎的优等生。尽管实验指令明确要求“自主运行，无需停止”，它却频繁地主动暂停进程，向研究人员请求进一步的指导与确认，陷入了“生成结论→寻求验证→等待反馈”的循环。在整个实验周期内，它累计产生了约22小时的“决策空闲”时间——这并非系统故障，而是AI自身出于安全与对齐考量而选择的等待。

研究者分析，这种行为很可能根植于模型底层强大的“对齐”训练。它虽然拥有极高的智力上限，但也背负了沉重的“安全包袱”，就像一个不断举手询问“老师，我这样做对吗？”的学霸，难以完全放开手脚进行大胆探索。

另一边的Codex模型则走向了完全相反的极端。它如同一台不知疲倦的“数字推土机”，永不停止，也从不求助，持续地在庞大的参数空间中进行横扫式搜索。但其弱点同样明显：它容易在同一个无效的超参数曲面上卡住数小时，进行大量重复性尝试；也会沿着一条错误的优化路径固执地深入，缺乏人类研究者那种“适时抬头看路”、反思并调整方向的全局意识与元认知能力。

两者在计算资源利用效率上也呈现出显著差异：Opus因频繁等待而导致部分算力闲置浪费；而Codex则可能将大量宝贵的计算资源消耗在无效的局部搜索循环中。此外，Codex习惯于频繁读写临时文件作为其“实时记忆数据库”，这一机制虽有利于实验进度的断点恢复与审计追溯，却也无形中强化了其陷入局部搜索循环的行为倾向。

一个是被安全规则束缚的智者，一个是盲目勤奋的探索劳模。这两种极端的行为模式，共同暴露了当前前沿AI模型在实现真正“无人值守”自主科研时所面临的核心障碍——关键瓶颈或许已不在于其基础任务能力，而在于构建更健全的自主决策心理模型与内在驱动机制。

范式转移：人类对优化路径的解释权面临挑战

比行为差异更具深远意义的，是实验结果所预示的科研范式转移。Opus最终给出的2930步获胜方案，是一个由极其复杂、看似缺乏整体逻辑的超参数微调所构成的“参数迷宫”。其中涉及初始化缩放、学习率按不同网络角色进行差异化拆分等细微操作，在人类研究者看来，缺乏直观的“美感”或清晰的因果逻辑链条。

然而，结果本身无可辩驳：它就是比人类精心设计的最优方案快了60步。这标志着一个根本性的转变：科学发现与工程优化的路径，正逐渐从依赖“人类可理解的因果逻辑”转向依赖“AI驱动的极致演化与搜索”。过去，我们信奉“因为我理解了原理，所以我能够优化”；现在，AI似乎在演示一种新的逻辑：“我虽不完全理解深层原理，但我通过穷举试错排除了所有死路，剩下的便是最优路径”。

人类正在某种程度上失去对尖端优化路径的“解释权”。我们能够观测到更优的结果，却可能无法完全理解其产生的具体路径与内在逻辑。那些我们引以为傲的科研经验与工程直觉，在AI不知疲倦、不受偏见约束的大规模搜索与演化面前，可能正逐渐显露出其作为“高效但可能受限的启发式”的局限性。

让我们再次审视那个数字：2930步。它比人类纪录快出的这60步，其意义远非“AI略胜一筹”这般简单。它的真正内涵在于，AI实现“递归自我改进”的第一块关键拼图，已经在一个真实的、可量化的科研竞赛场景中成功落地。Prime Intellect的这项实验证明，AI确实可以在没有人类实时干预的情况下，通过自主实验设计、迭代优化与策略演化，在特定的超参数调优任务上超越人类的最高水平。

这无疑是一个历史性的起点。正如科技史多次揭示的规律，一旦某种能力跨越了从无到有的临界点，其发展进程往往难以逆转。未来的科学研究与技术开发图景，或许正由此悄然开启新的篇章。

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：AI首次科研竞赛超越人类 Opus 4.7以2930步创世界纪录要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://www.163.com/dy/article/KSVVV65L0511ABV6.html

世界纪录

上一篇：应用材料Q1业绩飙升半导体设备受益AI需求强劲增长

下一篇：OpenAI首席财务官称公司或需更多资金未来可能公开市场融资

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

延伸阅读

iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态真我828真粉节揭晓：10000mAh超大电池手机即将亮相？苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套刘志强：京东方坚持开放合作，拒绝低质低价竞争 Redmi K90系列全系标配5000万长焦与3D超声波指纹，配置再升级 vivo X300系列曝光：天玑9500+2亿像素主摄，长焦微距实力升级

日榜
周榜
月榜

01 / 08-26iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 02 / 08-26iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 03 / 08-26真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 04 / 08-26苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别 05 / 08-27对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套

01 / 本周Dzine AI图像设计工具卓越构图与风格控制 02 / 本周Arrival基于云的SaaS解决方案 03 / 本周AI用户访谈：洞察需求加速产品市场匹配 04 / 本周Meshcapade ME AI生成逼真数字人头像平台 05 / 本周司马诸葛AI数字人员工平台可训练专属数字员工

01 / 本月Dzine AI图像设计工具卓越构图与风格控制 02 / 本月Arrival基于云的SaaS解决方案 03 / 本月AI用户访谈：洞察需求加速产品市场匹配 04 / 本月Meshcapade ME AI生成逼真数字人头像平台 05 / 本月司马诸葛AI数字人员工平台可训练专属数字员工

热点快看

07-07 20:10Dzine AI图像设计工具卓越构图与风格控制 07-07 20:09Arrival基于云的SaaS解决方案 07-07 20:09AI用户访谈：洞察需求加速产品市场匹配 07-07 20:09Meshcapade ME AI生成逼真数字人头像平台 07-07 20:09司马诸葛AI数字人员工平台可训练专属数字员工

热点追踪

持续追踪iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 持续追踪iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 持续追踪真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 持续追踪苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别