AI编程工具Codex两小时完成博士80小时代码改写任务
科研领域的“奇点时刻”,或许比我们预想的更早降临。最近,一项关于OpenAI Codex“目标模式”的实验在学术界引发了不小的震动:它让AI驱动的科研效率提升了整整40倍。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
事情源于Agentic AI工程师Dan McAteer在社交平台X上分享的一次实验。他利用OpenAI Codex的Goal Mode,尝试完成一项机械可解释性(Mechanistic Interpretability)的研究任务。根据GPT-5.5的估算,这项任务若由一位博士来完成,大约需要80个小时。然而,实际运行的结果令人咋舌:AI仅用了1小时56分钟就彻底完成了所有工作。

表面效率提升约40倍!


这项实验的核心,是Codex中一个名为/goal的内置技能。McAteer对此评价道,“/goal + GPT-5.5高精度 + 快速模式,是目前最高效的AI智能体配置方案。” 其关键在于,模型能够自行设定并拆解目标,而它生成的提示词,其质量甚至可能超越人类。

这已经超越了简单的“效率提升”,更像是一种“降维打击”。当科研周期从“周”缩短至“小时”,当AI开始自主撰写实验目标,一个不容回避的现实是:“智能爆炸”的曲线斜率已经显现,AI的自我迭代速度正脱离人类的掌控节奏。
Codex /goal 模式:从对话助手到目标驱动者
那么,这个引发轰动的实验究竟是如何进行的?
实验发起人Dan McAteer是一位专注于AI智能体工程化的工程师。他的实验配置相当简洁明了:
- 工具:OpenAI Codex /goal 命令
- 模型:GPT-5.5 high
- 模式:fast mode
- 任务:一项机械可解释性方向的研究任务

这套配置被他本人称为“当前可用的最高效AI智能体配置”。但更值得深究的,是/goal模式本身。
/goal 模式的本质与潜力
根据OpenAI工程师Philip Corey的解释,/goal 是对“Ralph循环”的一种工程实现。其核心在于,让一个目标在多轮对话中持续存在,不达目的不罢休。

简单来说,普通的Codex调用是“你问一句,它答一步”。而/goal模式则是“你给一个最终目标,它自己拆解成子任务、自主执行、自我审查、循环推进,直到成功或失败”。这标志着AI从“对话式助手”向“目标驱动型智能体”的关键转变。

对于机械可解释性这类研究任务,/goal模式有着天然的契合度。研究流程本身就是一个“提出假设→设计实验→运行分析→修正假设”的循环,正好可以交由一个具备自我循环能力的智能体来执行。
McAteer的实验真正证明的,是/goal模式在科研型循环任务上已具备实用价值。它并非要取代研究员,而是接管那些重复性高、流程固定的操作部分。

如果这种能力能够稳定下来,将对AI研究本身产生直接的杠杆效应。这意味着,未来AI实验室的内部研究员,或许可以利用AI智能体来完成训练数据准备、实验设置、消融研究、可视化生成乃至初步结果分析等一系列重复性工作。这也呼应了Anthropic和OpenAI近期反复提及的观点:AI正在加速AI研究本身。
80小时与2小时:科研门槛的崩塌
在传统科研范式下,一名博士生的日常充斥着文献查阅、模型构建、代码调试、结果验证和报告撰写。这套流程之所以漫长,源于人类大脑在处理复杂逻辑和海量数据时存在的物理上限。
但Codex的这次实验,彻底动摇了这一认知。

在“/goal + GPT-5.5 High + Fast Mode”这套顶级配置下,AI不再是一个被动“听指令”的工具,而是转变为一个能够“出策略”的独立研究单元。它能理解复杂的自然语言自动编码器实验需求,自主拆解任务,并在不到2小时的时间里,走完了人类精英可能需要两周才能完成的路径。
这标志着一个转折点:人类的科研门槛正在崩塌。那些曾经需要数年寒窗苦读才能获得的专业分析能力,正被算法快速模块化和自动化。更令人深思的是,自主AI研究员似乎已经提前降临。 OpenAI曾将实现AI自主科研的目标设定在2026年底,但从目前的实验进展来看,2026年或许不是起点,而可能是人类彻底交出科研主导权的终点。
递归自我改进:证据正在密集涌现
如果说Codex的40倍速实验只是一个刺眼的个案,那么围绕“递归自我改进”的更多证据,则构成了一个令人坐立不安的趋势。
今年5月7日,Anthropic联合创始人Jack Clark公开给出了一个预测:到2028年底,AI实现完全递归自我改进的概率超过60%。


与此同时,Sakana AI和UBC的研究团队今年推出了“Darwin Gödel Machine”——一个能够通过改写自身源代码来提升能力的编程智能体。

在SWE-bench基准测试中,它的得分从20.0%自我提升到了50.0%,全程无需人类干预。该团队的另一项目“AI Scientist”已于今年3月发表在《自然》杂志上,它能独立完成从产生研究想法、编写代码实验到撰写完整论文乃至进行同行评审的整个科研流水线。

再看一组硬数据。GPQA Diamond是一个由博士专家出题的科学问答基准。2023年11月,GPT-4的得分仅为39%,而人类领域专家的平均水平约为65%。到了2026年4月,前沿模型已实现集体越线:Gemini 3.1 Pro得分94.3%,Claude Opus 4.7得分94.2%。所有前沿模型的表现都已远超人类博士专家。

SWE-bench的演进轨迹更能说明这种加速趋势。

2023年底,Claude 2的通过率是2%。如今,这个数字变成了93.9%。短短两年半,就从2%飙升至93.9%。 这条曲线的形状,任何一个学过高中数学的人都能认出它代表的含义。
显然,递归自我改进的进程已经启动。一旦AI开始以这种40倍的效率去改写自身底层代码、优化架构,智力的增长将不再是线性的,而是垂直向上的。
AGI早已实现?被“煤气灯”的公众认知
事实上,关于AGI(通用人工智能)是否已经到来的争论,早已在学界掀起波澜。今年2月,四位分别来自哲学、机器学习、语言学和认知科学领域的顶尖学者联名发表了一篇题为《AGI案例研究:今日LLM已达标》的论文,其结论堪称“年度最令人不安”。

他们得出了一个惊人的一致结论:按照2022年之前的普遍定义,AGI其实早已实现。 之所以至今无人公开承认,是因为整个AI行业正在对公众进行一场集体性的“煤气灯效应”。
论文指出,人类在面对AI崛起时,表现出了一种强烈的心理防御机制。

2022年之前,AGI的定义相对清晰:能通过图灵测试、能跨领域处理任务即可。然而,在ChatGPT出现并展现出强大能力后,标准被悄然改变:“光有这些不行,还得有完美的推理能力、得有身体(具身性)、得有自我意识……” 每当模型突破一个旧关口,人类就会即兴加入新的、更为虚无缥缈的指标作为门槛,不断“移动球门”。
问题在于,如果AGI已经以某种形式存在,那么当前的行业叙事就显得极其荒诞。OpenAI仍在筹集数百亿美元声称要“构建AGI”;Anthropic每次发布新模型,也总将其包装成“接近AGI”的期货。论文犀利地揭示:科技巨头们可能正在把一个“已经交付”的东西,伪装成“即将研发出来”的神迹,以此换取持续的资金与影响力。

站在智能爆炸的前夜
如今,我们正站在一个极其诡异的节点上。
在实验室里,AI正以40倍的速度进行机械解释性研究,甚至开始为自己编写代码。在市场上,算力依然是硬通货,每一块新的高端芯片都在加速那个“奇点”的到来。然而,在社会心理层面,大众仍倾向于用“复读机”或“概率预测”这类过时的概念来安慰自己,低估了正在发生的根本性变革。
可以想象,如果40倍速的科研效率成为常态,人类文明积累数千年的知识总量,AI可能只需要几个月就能实现翻倍。当AI能够独立完成博士级的研究任务时,我们现有的教育体系、职称评定制度,乃至“专家”这个词本身的含义,都将面临前所未有的挑战。
正如哥白尼将地球移出了宇宙的中心,如今的AI正在将人类移出“唯一智慧生命”的圣殿。这场名为“智能爆炸”的战争没有硝烟,却关乎未来。我们要么学会如何与这种新的智能物种共生,要么就只能眼睁睁地看着它,以40倍的速度,将我们远远甩在身后。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
RPA财务机器人实训目标与核心内容详解
在当今企业数字化转型的进程中,RPA(机器人流程自动化)技术已成为财务领域实现智能化升级的关键工具。近期,一场以“RPA财务机器人应用”为主题的实战培训圆满落幕,该活动通过系统化的实操演练,为财务从业者清晰地展示了如何借助RPA技术切实推动财务工作的自动化与智能化转型。 本次实训以“赋能财务,智启未
机器人视觉定位与抓取技术原理详解
要让机器人像人类一样精准地“看见”并“抓取”物体,其背后是一套深度融合了计算机视觉与机器人控制的精密技术体系。整个过程可概括为“感知-决策-执行”的闭环,即先通过视觉系统观察环境,再通过算法分析理解目标,最后驱动机械臂完成动作。接下来,我们将详细解析这套机器人视觉定位抓取系统的工作流程。 一、图像采
流程挖掘技术详解:核心概念、应用场景与发展前景
在数字化转型的浪潮中,一项关键技术正从幕后走向台前,成为企业洞察运营、提升效率的“透视镜”——它就是流程挖掘(Process Mining)。这项技术的核心在于,从企业各类业务系统(如ERP、CRM、OA)中自动提取事件日志数据,通过算法分析和可视化呈现,精准还原业务流程的真实全貌。简而言之,它有效
RPA能否替代群控软件实现自动化操作
在讨论自动化解决方案时,RPA(机器人流程自动化)与群控软件经常被一同提及。两者都能有效替代人力完成重复性任务,但其核心定位与应用逻辑存在本质区别。简单地将RPA理解为群控软件的进阶版本,可能忽略了它们各自独特的设计初衷与适用领域。 RPA:专注业务流程的“数字员工” 首先,明确RPA的定义至关重要
批量导入文本实现自动化操作指南
在日常办公与数据分析中,如何高效实现文本文件的批量导入与自动化处理,是提升工作效率的关键挑战。本文将系统梳理五种主流且高效的解决方案,涵盖从即开即用的软件工具到高度定制的编程脚本,帮助您根据自身技术背景与任务复杂度,选择最合适的批量文本处理方法。 1 借助专业文本编辑器的批量处理功能 对于常规的文
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

