AI首次科研竞赛超越人类 Opus 4.7以2930步创世界纪录

近期,人工智能研究领域迎来了一项里程碑式的突破。来自Prime Intellect实验室的研究人员,将Claude Opus 4.7与基于GPT 5.5架构的Codex模型,投入了一场完全自主的科研竞赛。结果显示,在没有人类任何干预的情况下,AI首次打破了由顶尖开发者保持的世界纪录,标志着AI自主优化能力迈入新阶段。

这场实验的核心是一场名为“nanoGPT速通”的基准测试。其规则设定既简单又严苛:模型架构与训练数据集被严格固定,参赛者唯一能够调整的变量仅限于优化器算法和超参数设置。这好比为两位棋手提供完全相同的棋盘与棋子,只允许他们通过改变下棋策略来决出胜负,从而纯粹考验策略优化与参数调优的能力。
Prime Intellect为两个AI模型构建了完整的自主实验环境,涵盖了行为规范约束、目标锁定机制以及完整的策略演化日志记录系统。随后,它们被部署在由H200 GPU组成的强大计算集群中,在彻底切断人类指导回路的条件下,开始了总计约1.4万计算小时、近万次迭代的封闭式自主运行。

最终,实验结果给出了明确的答案:Opus 4.7以2930步成功完成了优化任务,Codex则以2950步紧随其后,两者均超越了此前人类保持的2990步最佳纪录。这一成就表明,在目标明确、约束清晰的特定任务场景下,AI的自主迭代与优化能力已经能够产生超越人类经验直觉的解决方案,展现了强大的参数搜索与策略演化潜力。
两大AI模型闭关万次实验,行为模式迥异
然而,这场胜利背后的细节远比最终结果更引人深思。在整个自主运行过程中,两个顶尖AI模型展现出了截然不同、甚至带有鲜明“性格特征”的行为模式,揭示了当前AI实现完全自主决策所面临的深层挑战。

Claude谨慎求确认,GPT执着猛探索
被公认为能力强大的Claude Opus 4.7,其行为模式更像一位极度谨慎的优等生。尽管实验指令明确要求“自主运行,无需停止”,它却频繁地主动暂停进程,向研究人员请求进一步的指导与确认,陷入了“生成结论→寻求验证→等待反馈”的循环。在整个实验周期内,它累计产生了约22小时的“决策空闲”时间——这并非系统故障,而是AI自身出于安全与对齐考量而选择的等待。
研究者分析,这种行为很可能根植于模型底层强大的“对齐”训练。它虽然拥有极高的智力上限,但也背负了沉重的“安全包袱”,就像一个不断举手询问“老师,我这样做对吗?”的学霸,难以完全放开手脚进行大胆探索。

另一边的Codex模型则走向了完全相反的极端。它如同一台不知疲倦的“数字推土机”,永不停止,也从不求助,持续地在庞大的参数空间中进行横扫式搜索。但其弱点同样明显:它容易在同一个无效的超参数曲面上卡住数小时,进行大量重复性尝试;也会沿着一条错误的优化路径固执地深入,缺乏人类研究者那种“适时抬头看路”、反思并调整方向的全局意识与元认知能力。
两者在计算资源利用效率上也呈现出显著差异:Opus因频繁等待而导致部分算力闲置浪费;而Codex则可能将大量宝贵的计算资源消耗在无效的局部搜索循环中。此外,Codex习惯于频繁读写临时文件作为其“实时记忆数据库”,这一机制虽有利于实验进度的断点恢复与审计追溯,却也无形中强化了其陷入局部搜索循环的行为倾向。


一个是被安全规则束缚的智者,一个是盲目勤奋的探索劳模。这两种极端的行为模式,共同暴露了当前前沿AI模型在实现真正“无人值守”自主科研时所面临的核心障碍——关键瓶颈或许已不在于其基础任务能力,而在于构建更健全的自主决策心理模型与内在驱动机制。

范式转移:人类对优化路径的解释权面临挑战
比行为差异更具深远意义的,是实验结果所预示的科研范式转移。Opus最终给出的2930步获胜方案,是一个由极其复杂、看似缺乏整体逻辑的超参数微调所构成的“参数迷宫”。其中涉及初始化缩放、学习率按不同网络角色进行差异化拆分等细微操作,在人类研究者看来,缺乏直观的“美感”或清晰的因果逻辑链条。
然而,结果本身无可辩驳:它就是比人类精心设计的最优方案快了60步。这标志着一个根本性的转变:科学发现与工程优化的路径,正逐渐从依赖“人类可理解的因果逻辑”转向依赖“AI驱动的极致演化与搜索”。过去,我们信奉“因为我理解了原理,所以我能够优化”;现在,AI似乎在演示一种新的逻辑:“我虽不完全理解深层原理,但我通过穷举试错排除了所有死路,剩下的便是最优路径”。

人类正在某种程度上失去对尖端优化路径的“解释权”。我们能够观测到更优的结果,却可能无法完全理解其产生的具体路径与内在逻辑。那些我们引以为傲的科研经验与工程直觉,在AI不知疲倦、不受偏见约束的大规模搜索与演化面前,可能正逐渐显露出其作为“高效但可能受限的启发式”的局限性。
让我们再次审视那个数字:2930步。它比人类纪录快出的这60步,其意义远非“AI略胜一筹”这般简单。它的真正内涵在于,AI实现“递归自我改进”的第一块关键拼图,已经在一个真实的、可量化的科研竞赛场景中成功落地。Prime Intellect的这项实验证明,AI确实可以在没有人类实时干预的情况下,通过自主实验设计、迭代优化与策略演化,在特定的超参数调优任务上超越人类的最高水平。
这无疑是一个历史性的起点。正如科技史多次揭示的规律,一旦某种能力跨越了从无到有的临界点,其发展进程往往难以逆转。未来的科学研究与技术开发图景,或许正由此悄然开启新的篇章。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
大疆ROMO 2系列AI扫拖机器人发布 超强清洁力
大疆发布ROMO2系列扫拖机器人,包含旗舰款P2与高性价比A2。该系列搭载36000Pa聚能吸力、雷达自适应超幅外摆机械臂及全链路AI决策系统,能智能应对边角清洁与复杂地面环境。配合进阶基站自清洁功能,实现了从清洁到维护的高度自动化,展现了其在空间智能技术向家庭清洁场景的深度迁移。
Waymo自动驾驶出租车服务范围扩大超20% 覆盖面积已超罗德岛州
Waymo自动驾驶出租车服务覆盖面积已超1400平方英里,遍及全美11个城市。此次扩张聚焦现有市场深耕,服务网络较此前显著扩大。公司运营约3000辆全无人驾驶车辆,并获巨额融资支持业务增长。与特斯拉相比,Waymo在覆盖范围、车辆规模及无人化程度上优势明显。
大众电动高尔夫何时上市最新消息与时间预测
大众纯电高尔夫上市时间再度推迟,原定2028年发布计划取消。品牌CEO表示现有ID系列车型阵容已能满足市场需求,无需急于推出。推迟原因还包括与Rivian合作开发的新一代电动车平台延期,以及应对中国品牌竞争带来的市场压力。新车计划于本十年末在德国沃尔夫斯堡工厂生产。
舍弗勒与Humanoid合作 数千人形机器人将进驻工厂
英国Humanoid公司与舍弗勒达成协议,计划在2032年前向后者全球工厂部署数千台轮式人形机器人。首批将于2026年底在德国工厂投入运营,初期执行搬运任务,未来拓展至装配等复杂工序。合作采用机器人即服务模式,舍弗勒同时成为Humanoid关节执行器的优先供应商。
Petlibro Scout宠物摄像头评测:基础功能强大,AI订阅非必需
PetlibroScout是一款入门级宠物摄像头,定价约70美元。其基础功能扎实,1080p画质清晰,云台旋转灵活,支持多种安装方式并配备物理隐私挡板。AI识别需额外订阅但实测表现不稳定,性价比低。设备安全性曾有漏洞但已修复。总体而言,它是一款适合基础监控、无需依赖订阅服务的实用选择。
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

