AI代码工具Codex两小时完成博士八十小时工作科研效率迎来突破

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI代码工具Codex两小时完成博士八十小时工作科研效率迎来突破

热心网友时间：2026-05-14

转载

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

科研领域的“奇点”或许比我们预想的更近。近日，一项关于OpenAI Codex“目标模式”的实验在学术界引发了震动：AI将一项复杂的科研任务效率提升了约40倍。

Agentic AI工程师Dan McAteer在社交平台X上披露了这次实验。他使用OpenAI Codex的Goal Mode来执行一项机械可解释性研究任务。根据GPT-5.5的估算，这项任务可能需要一位博士投入约80小时才能完成。然而，在实际操作中，AI仅用了1小时56分钟就彻底跑完了整个流程。

表面效率提升达到了惊人的40倍。这不再是简单的效率优化，而更像是一场“降维打击”。当科研周期从以“周”为单位压缩至“小时”，一个关键问题浮出水面：我们是否已经站在了智能爆炸的临界点上？

实验的核心在于Codex中一种名为“/goal”的内置技能。McAteer认为，“/goal”指令配合GPT-5.5高精度模型与快速模式，构成了当前最高效的AI智能体配置。其关键在于，模型能够自行设定并拆解目标，它写出的提示词甚至可能比人类工程师的更出色。

Codex /goal 模式：从对话到自主目标驱动

那么，这个引发效率革命的“/goal”模式究竟是什么？

根据OpenAI Codex工程师Philip Corey的描述，“/goal”是对“Ralph循环”的一种实现——它让一个目标在多轮对话中持续存在，不达成则不停止。

简单来说，普通的Codex调用是“你问一句，它答一步”。而Codex /goal模式则是“你给定一个最终目标，它自己拆分子任务、自己执行、自己审查结果、自己继续推进”，直到目标达成或宣告失败。这标志着AI从被动的对话工具，转向了主动的目标驱动体。

对于机械可解释性这类研究任务，/goal模式有着天然的契合度。这类研究本身就是一个“提出假设→设计实验→运行→分析结果→修正假设”的循环过程，正好可以交由一个能够自我循环的智能体去执行。

McAteer的实验真正证明的，是Codex /goal模式在科研型循环任务上具备了实际可用性。它并非要替代研究员，而是替代了研究过程中那些重复性高、流程化的操作部分。

这个能力如果稳定下来，将对AI研究本身产生直接的杠杆效应。这意味着，未来AI实验室内部的研究员，或许可以利用AI智能体来完成训练数据准备、实验设置、消融研究、可视化生成以及初步结果分析等重复性工作。这也呼应了Anthropic和OpenAI近来反复提及的观点：AI正在加速AI本身的研究。

效率跃迁：博士80小时 vs AI 2小时

在传统科研范式中，一名博士生的日常充斥着文献查阅、模型构建、代码调试、结果验证和报告撰写。这套流程之所以漫长，源于人类大脑在处理复杂逻辑和海量数据时存在的物理与认知上限。

但Codex的这次实验打破了这种认知框架。

在“/goal + GPT-5.5 High + Fast Mode”的配置下，AI不再是一个等待指令的工具，而更像是一位能够“出策略”的独立研究员。它能理解复杂的自然语言自动编码器实验需求，自主拆解任务，并在不到2小时的时间里，走完了人类精英可能需要两周才能完成的路径。

这暗示着，某些领域的科研门槛正在发生结构性崩塌。过去需要经年累月训练才能获得的专业分析能力，正被算法模块化、自动化。甚至，自主AI研究员可能已经提前降临。

OpenAI曾将实现AI自主科研的目标设定在2026年底。但从目前的实验进展来看，2026年可能不是起点，而是人类在某些研究环节彻底交出“接力棒”的节点。

递归自我改进：证据正在密集涌现

如果说Codex的40倍速实验是一个刺眼的个案，那么更令人警觉的，是围绕“递归自我改进”的证据正在全球多个实验室密集涌现。

5月7日，据Axios报道，Anthropic联合创始人Jack Clark公开给出了一个预测：到2028年底，AI实现完全递归自我改进的概率超过60%。

另一边，Sakana AI和UBC的研究团队今年开发出了“Darwin Gödel Machine”，这是一个能够通过改写自身源代码来提升能力的编程智能体。

在SWE-bench基准测试上，它的得分从20.0%自我提升到了50.0%，全程无需人类干预。同一团队打造的“AI Scientist”项目，已于今年3月发表在《自然》期刊上，它能自主产生研究想法、编写代码运行实验、撰写完整论文并进行同行评审，实现了从端到端的独立科研流水线。

再看一组硬核数据。GPQA Diamond是一个由博士专家出题的科学问答基准，2024年11月GPT-4的得分约为39%，人类领域专家的平均水平在65%左右。而到了2026年4月，前沿模型集体越线：Gemini 3.1 Pro得分94.3%，Claude Opus 4.7得分94.2%，均已远超人类博士专家水平。

SWE-bench的演进轨迹更能说明这种加速度。

2024年底，Claude 2的通过率是2%。如今，这个数字已经变成了93.9%。两年半时间，从2%飙升至93.9%，这条增长曲线的形状，任何一个学过基础数学的人都能认出它所代表的趋势。

显然，递归自我改进的进程已经悄然启动。一旦AI开始以40倍的效率去改写自己的底层代码、优化自身架构，智力的增长将不再是线性的，而可能是指数级甚至垂直向上的。

AGI 已经交付？被“移动的球门”

一个更碘伏性的观点认为，我们讨论的AGI或许早已以某种形式存在，只是整个行业在集体“移动球门”。

今年2月，四位分别来自哲学、机器学习、语言学和认知科学领域的顶尖学者联名发表了一篇题为《AGI 案例研究：今日 LLM 已达标》的论文，其结论堪称“年度最令人不安”。

他们得出一致结论：按照2024年之前学术界普遍接受的定义，AGI其实已经实现。当下之所以无人正式承认，是因为整个AI行业正在对公众进行一场集体性的“煤气灯效应”。

论文指出，人类在面对AI崛起时，表现出了一种强烈的心理防御机制。

2024年之前，AGI的定义相对清晰：能通过图灵测试、能跨领域处理任务即可。然而，当ChatGPT等模型展现出这些能力后，标准被瞬间拔高：“光有这些不行，还得有完美的逻辑推理、得有物理身体、得有自我意识……”每当模型突破一个旧关口，人类就即兴加入新的、更为虚无缥缈的指标作为门槛。

如果这个假设成立，那么当前的行业逻辑就显现出一种荒诞。一方面，OpenAI仍在筹集巨额资金声称要“构建AGI”；另一方面，Anthropic每次发布新模型都将其包装成“接近AGI”的期货。论文犀利地揭示：巨头们可能正在把一个“已经交付”的东西，伪装成“即将研发出来”的神迹，以此换取持续的资金与话语权。