当前位置: 首页
AI
Anthropic联创预测AI自主进化概率达60% 2028年底前或实现

Anthropic联创预测AI自主进化概率达60% 2028年底前或实现

热心网友 时间:2026-05-17
转载


AI自己创造AI的时代,可能比我们想象的更近。这不是科幻小说的情节,而是行业顶尖观察者基于一系列公开数据得出的严肃判断。

近日,Anthropic联合创始人Jack Clark在社交媒体上分享了一个引人注目的观点:他认为,到2028年底之前,AI实现“递归自我改进”(即AI系统能够自行构建和改进其后续版本)的概率高达60%。这个判断并非空xue来风,而是基于他对编程、科研复现、模型训练优化等多条能力曲线的长期追踪——这些曲线无一例外,都在向右上方飞速延伸,看不到减速的迹象。


作为长期跟踪AI能力进展的通讯《Import AI》的创办者,Clark在发布观点的同时,也附上了一篇详尽的分析文章。他在文中坦言,这个结论的影响如此巨大,以至于让他感到自身渺小,并担忧社会是否已准备好迎接自动化AI研发所带来的根本性变革。他将这一潜在转折点比作一道“卢比孔河”,一旦跨过,未来将变得几乎无法预测。


四年,从“半分钟”到“半天”的飞跃

支撑Clark结论的核心,是一组清晰的能力进展曲线。首先来看METR机构的时间轴图,它衡量的是AI系统独立完成任务的能力水平。


METR追踪的是:在达到50%成功率时,AI能独立完成一项任务所需的时间跨度,这个时间相当于一个熟练人类完成同样任务的时间。数据显示:

  • 2024年,GPT-3.5能处理约30秒的任务。
  • 同年,GPT-4将这个数字推到了4分钟。
  • 同样是2024年,o1模型达到了40分钟。
  • 2025年,GPT-5.2(高配版)突破了6小时。
  • 到了2026年,Claude Opus 4.6已经能处理长达12小时的任务。

短短四年,从30秒到12小时,能力跨度增长了1440倍。AI能力研究员Ajeya Cotra甚至预测,到2026年底,这个数字有望突破100小时。这意味着,AI将能够覆盖许多需要多日完成的软件或研究辅助任务。

编程与科研:基准被接连“打穿”

编程能力的进化同样惊人。SWE-Bench基准测试衡量AI解决真实GitHub工程问题的能力。2024年底,Claude 2的得分仅为2%。而到了今年,Claude Mythos Preview的得分达到了惊人的93.9%,这个基准可以说基本被解决了。

再看CORE-Bench,它测试的是AI根据一篇论文和对应代码库,独立复现实验结果的能力——这正是AI研究员的日常基本功。


2024年9月该测试推出时,最好成绩是21.5%。到了2025年12月,Opus 4.5在特定框架下的验证准确率达到了77.78%,经人工校验后高达95.5%。项目方宣布,CORE-Bench已被解决。从21.5%到95.5%,只用了15个月。

在机器学习工程领域,MLE-Bench测试AI独立参加Kaggle竞赛的能力。2024年10月发布时最高分为16.9%,而到2026年2月,Gemini 3结合搜索工具的组合,分数已经达到了64.4%。


更直接的证据来自Anthropic的内部测试:让模型优化一个仅使用CPU的小型语言模型的训练代码,目标是速度越快越好。

  • 2025年5月,Claude Opus 4的优化倍数是2.9倍。
  • 2025年11月,Opus 4.5提升到了16.5倍。
  • 2026年2月,Opus 4.6达到了30倍。
  • 2026年4月,Claude Mythos Preview实现了52倍的优化。

不到一年时间,优化效率从2.9倍暴涨至52倍。这直观地展示了AI在优化“AI训练”这件事上的进展速度。

“99%的汗水”即将被自动化

这里引出一个关键问题:AI研究工作中,有多少是纯粹的工程劳动,又有多少是真正的创意灵感?Clark借用爱迪生的名言给出了一个框架:天才是1%的灵感加上99%的汗水。他认为,AI研究也是如此。

一个典型的AI研究循环,大部分工作其实是数据清洗、跑实验、调参数、读论文、复现结果——这些都属于“汗水”部分,而非“灵感”。真正改变范式的发明,如Transformer或混合专家模型(MoE),只占那1%。而现状是,那99%的工程性工作,正在被AI快速接管。

几个信号值得关注:

首先,AI已经能够管理其他AI。在Claude Code、OpenCode这类工具中,单个AI可以扮演“项目经理”角色,将任务分发给多个子AI并行处理,然后汇总结果。这种组织方式,与人类研究团队已没有本质区别。

其次,PostTrainBench测试了AI微调开源小模型以提升其任务表现的能力,这通常是前沿实验室研究员的工 作。


截至2026年3月,AI系统在这个任务上能达到人类研究员效果的一半左右(提升幅度约25%-28%,人类基线为51%)。

更具说服力的是Anthropic内部的“自动化对齐研究”概念验证:让一组AI智能体在AI安全研究问题上自主攻关。结果,AI提出的方案甚至超过了Anthropic人类研究员的基线水平。


将这些证据串联起来,Clark的判断是:AI今天已经能够自动化AI工程中的绝大部分工作。至于AI研究中有多少能最终被自动化,虽然还不完全清楚,但迹象已经非常明显。

质疑与回应:循环不等于指数收益

Clark的观点也引发了一些行业质疑。《终极算法》作者、华盛顿大学教授Pedro Domingos回应指出,从LISP语言在50年代发明以来,AI就具备了构建自身的能力。核心问题在于,这个过程带来的是递增回报还是递减回报?目前并没有证据支持前者。


换句话说,递归自我改进听起来很科幻,但能循环不等于循环有收益。如果每一代AI优化自己的效率只有边际改善,而非指数级放大,那么其影响将非常有限。

也有研究者对概念本身提出疑问。研究员Dan Brickley问道:“递归自我改进到底有没有一个权威定义?”


一个更尖锐的观察来自账号@crepesupreme:Clark预测2027年概率为30%,2028年则跳升至60%。这意味着在2027到2028年之间,存在某个导致能力不连续跃升的关键事件。那个具体事件是什么?

Clark在文章中回应了这个隐含问题。他认为,AI研究仍需要某种创意突破才能真正进入“自我研发”循环,而AI目前在创意直觉方面只有“诱人的早期信号”,尚无系统性突破。这正是他将2027年概率只设定在30%的原因。如果这个创意缺口在2028年底前被填补,概率就会升至60%。同时他也承认,自己预测的是概率,而非确切时间点。

还有人质疑他的方法:“你在Anthropic工作,为什么不直接下楼问同事,反而去翻公开数据?”Clark的回答是,使用公开数据正是为了确保结论的可信度。他要的是一个任何人都能独立核验的判断,而非内部观点。

有限的窗口与治理的挑战

那么,为什么Clark不给2027年更高的概率?他在文章中解释,因为AI研究包含对创意直觉的要求,而AI目前在这一块仅有“诱人的早期信号”,比如Gemini模型参与攻克Erdős数学问题,在700个问题中解出了一个被数学家认为具有一定原创性的解;再如斯坦福、UBC等机构与Google DeepMind的合作中,AI在发现新数学证明中起到了“非常实质性的作用”。

这些结果,可能是能力演化时间轴上的早期信号。Clark估计,如果到2028年底他描述的情况仍未出现,则说明当前技术路径存在某个根本性的能力天花板,需要人类的创意才能突破。

然而,更关键的问题是“如果出现了”之后该怎么办。Anthropic在2026年3月宣布成立The Anthropic Institute时,其声明中就包含了一个尖锐的问题:如果AI系统的递归自我改进确实开始发生,那么世界上谁应该被告知,以及这些系统应该如何治理?


连Anthropic自己,也还没有这个问题的完整答案。

Clark在文章中提出了一个更技术性的担忧:假设今天的AI对齐技术有99.9%的准确率。在递归迭代50代之后,对齐的准确率会衰减到95.1%;迭代500代之后,则会暴跌至60.5%。除非对齐方案在理论上能保证对更智能的系统同样有效,否则问题将很快浮现。

或许,Clark真正想提醒的是:留给社会讨论、研究和设计治理框架的时间窗口是有限的,而且正在快速缩窄。

行业的动向也印证了这种紧迫感。据媒体报道,OpenAI的目标是让AI在2026年9月前达到“AI研究实习生”水平,2028年实现更完整的自动化研究员能力。Anthropic自身也在推进自动化对齐研究。一家名为Recursive Superintelligence的新公司刚刚完成5亿美元融资,其目标之一正是自动化AI研究。

整个行业,已经在朝这个方向加速前进。无论从哪个维度审视,数据都指向同一个方向。每一条能力曲线都在向右上方飞驰,时间越长,能力越强,并且没有任何一条显示出减速的迹象。

来源:https://www.163.com/dy/article/KS6KU9UU0511ABV6.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
Claude代码助手使用入门与实战教程

Claude代码助手使用入门与实战教程

Claude Code的诞生,标志着AI工具从“对话应答”迈入了“自主执行”的新纪元。简而言之,它能将您的自然语言指令,直接转化为计算机上的具体操作。其高级能力更在于,可以协调多个智能体,如同一个专业团队般并行处理复杂项目的不同模块。 Claude Code是一款在终端中运行的AI智能体工具。“终端

时间:2026-05-17 17:08
Perplexity AI 如何关闭图片生成功能

Perplexity AI 如何关闭图片生成功能

如果你在使用Perplexity AI时,希望它专注于文本对话而不再自动响应绘图指令,可以通过关闭后台的实验性图像生成功能来实现。该功能默认处于禁用状态,但若被意外或手动开启,AI在识别到特定关键词时便会尝试生成图像。按照以下步骤操作,即可轻松关闭此功能,让AI回归纯文本交互模式。 一、进入账户设置

时间:2026-05-17 17:08
Claude Opus 4.7与Mythos谁才是最强AI模型深度解析

Claude Opus 4.7与Mythos谁才是最强AI模型深度解析

近日,人工智能研究公司Anthropic悄然发布了一款名为Claude Mythos(神话)的预览版模型。熟悉Claude系列的用户可能对Opus、Sonnet等公开模型较为熟悉,但Mythos截然不同。它比当前最先进的Claude Opus 4 7更为特殊,其能力之强,以至于Anthropic目前

时间:2026-05-17 17:08
Hermes Agent启动速度慢的优化方法与解决方案

Hermes Agent启动速度慢的优化方法与解决方案

启动Hermes Agent时,如果感觉从输入命令到完全就绪的等待时间过长,这通常不是错觉。启动缓慢往往源于几个关键环节的累积开销:依赖包臃肿、模型过早加载、配置解析复杂以及磁盘I O瓶颈。别担心,通过一系列有针对性的优化,完全可以显著压缩启动时间,让Agent“秒级”响应。下面我们就来逐一拆解这些

时间:2026-05-17 17:07
Grok3技术文档可读性分析与术语通俗化平衡指南

Grok3技术文档可读性分析与术语通俗化平衡指南

阅读Grok3官方技术文档时感到吃力,是许多开发者遇到的共同难题。其核心挑战主要来自两方面:专业术语密度过高,以及中文表达存在明显的直译痕迹。针对这些问题,我们可以从多个角度深入剖析,并找到行之有效的解决方案。 一、术语密度实测对比分析 一个明显的感受是,Grok3技术文档中专业术语的出现频率远高于

时间:2026-05-17 17:07
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程