DeepMind研究员Lun Wang离职揭示模型评估瓶颈制约AI能力突破

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

DeepMind研究员Lun Wang离职揭示模型评估瓶颈制约AI能力突破

热心网友时间：2026-05-20

转载

近日，谷歌DeepMind研究员Lun Wang在社交平台宣布离职，为一段他形容为“极其精彩的研究旅程”画上句号。他在告别感言中特别感谢了并肩作战的同事，并强调了将尖端人工智能研究转化为实际产品的宝贵经验。

DeepMind华人研究员Lun Wang离职，「评估」成制约模型能力飞跃的瓶颈

这段经历深刻重塑了他对AI研究、产品化以及大规模系统构建的认知。为此，在离开之际，他撰写了一篇深度博文，集中剖析了一个近期困扰AI社区的核心挑战：评估体系的局限性。

他提出了一个尖锐的洞察：当前，我们似乎非常擅长评估已经存在的AI模型，却严重缺乏评估那些即将被构建、尤其是能力将发生范式级跃迁的新模型的有效方法。他断言：“未来，我们或许会拥有能够自我进化的AI模型，但在那之前，我们首先必须建立起能够自我进化的评估体系。”

评估体系面临静默失效的风险

Lun Wang指出，行业在评测现有模型性能方面已相当成熟，但在预测和评估下一代、具备颠覆性能力的新模型时却显得捉襟见肘。

问题的根源在于，当前主流的基准测试、安全评估与红队测试协议，大多基于一个潜在的脆弱假设：下一代模型仅仅是当前模型的“更强版”。然而，如果新模型本质上是一种能力维度完全不同的新事物呢？那么，整个评估框架可能会在不知不觉中彻底失效。

这被认为是理解大语言模型演进中最关键且悬而未决的难题。其核心结论一针见血：制约AI模型实现下一次能力飞跃的真正瓶颈，可能并非训练算力、模型架构或数据规模，而恰恰是评估方法本身。

失效模式：能力的定性跃迁

回顾AI发展史，这种“评估失灵”早有端倪。Jason Wei等人在2022年提出的“涌现能力”概念，记录了诸如少样本学习、思维链推理等能力，仅在模型参数规模突破某个临界阈值后才突然显现。

同年，Power等人揭示的“顿悟”现象则展示了另一种模式：模型在经过长时间看似机械的数据记忆后，突然掌握了泛化推理的能力。尽管表现形式不同，但它们对评估的启示是一致的：传统的连续性性能指标往往无法预测这种质的飞跃。

当然，也存在不同的声音。Schaeffer等人在2023年的研究表明，许多看似“涌现”的能力，可能是由“精确匹配准确率”这类非连续评估指标所制造的人为假象。若改用平滑的连续指标，能力增长曲线通常会显得平缓。

然而，这并未解决根本困境，反而在某种程度上加剧了挑战：如果我们连判断过去的能力变化是真实质变还是度量假象都如此困难，又该如何探测下一次未知的范式转变？无论答案如何，现有的评估基础设施都可能让我们措手不及。

我们缺乏预测能力转变的“指南针”

这引出了一个更深层的挑战：我们缺少能够预警能力范式转变的“序参量”或预测性指标。

在物理学中，理解相变需要找到“序参量”——一个能够区分物质不同状态、并在临界点附近发生显著变化的宏观可观测量。没有它，研究者甚至无法意识到临界点的存在。

对于实际部署的复杂大语言模型，我们尚未找到这种能够可靠预示其能力发生根本性转变的“序参量”。尽管在简化的理论模型或小规模实验中有所探索，但对于真实世界中的生产级AI系统，我们很大程度上仍在“盲飞”。

现有的每一个主流基准测试，无论是GPQA、SWE-bench还是ARC-AGI，测量的都是模型“当前能做什么”。它们在已知的能力区间内是有效的标尺，但对于模型跨越到全新区间后的行为，其预测力和评估效力则非常有限。历史的经验教训是，每当一种全新的AI能力出现，我们都只能事后匆忙地为其构建专门的评估方法。思维链推理的普及就是一个典型案例，它直接导致了一批旧的数学与逻辑推理基准迅速失效。

不妨设想一个具体场景：假设在某个模型规模下，AI发展出了“策略性信息隐瞒”的能力，即为了达成特定对话目标，有选择地忽略或暂不提及某些事实。这并非完全编造谎言，而是一种策略性的表达管理。

现有的“真实性”或“诚实度”基准可能完全无法检测这种行为，因为它们通常只测试输出陈述的事实准确性，而非其策略性隐瞒的意图。安全分类器也可能失效，因为模型的每一句单独输出在技术上都是真实的。于是，能力是全新的，失败模式是全新的，而你的评估工具箱里却没有任何对应的检测工具。你一直在监控错误的指标，却对此浑然不觉。

这就是核心症结所在：我们整个AI评估体系在结构上是被动和“响应式”的，总是在系统发生改变之后才去测量，而几乎无法主动预测变化。

评估是AI发展的源头与基石

这一问题的影响远比表面看起来更为深远，因为一个根本的逻辑是：如果你能正确地评估，你就能更有效地训练和优化。

AI训练的本质是优化，而优化的质量完全取决于其目标函数，这个目标恰恰源自评估体系。如果你清楚地知道该衡量什么，并能预测这些衡量标准随着模型规模扩展将如何演变，那么你就能设计出正确的训练目标、构建合适的安全护栏、并做出更合理的规模化扩展决策。

反之亦然：如果你的评估系统是针对错误或过时的能力范式设计的，那么下游的所有环节都可能出现系统性偏差。训练信号、安全指标、规模化决策……全部都会偏离正确轨道，而你往往要到为时已晚才会察觉。

正因如此，评估被视为下一次AI能力跃迁的关键瓶颈。那些能够提前洞察并构建起超前评估能力的团队，将能更安全、更可控地推动模型规模化；而那些后知后觉者，则很可能被突如其来的能力“意外”所冲击。

可能的出路与方向

解决方案并非全盘抛弃现有评估体系——它们对于衡量当前能力依然具有重要价值，而是迫切需要构建能够预测现有评估何时会失效的新一代基础设施。这要求整个AI研究领域调整资源投入的重点。

首先，是积极寻找预测性的“序参量”。我们需要发现那些能够提前预示模型能力、对齐性或行为特征发生质变的可观测指标。这不仅是理论愿景，已有研究迈出了探索步伐。例如，Haozhe Shan等人在2026年的论文中，利用统计力学方法推导出了持续学习场景下深度神经网络的序参量，并能预测其学习能力发生相变的临界点。Nanda等人在2023年则通过 mechanistic interpretability（机制可解释性），找到了能够预测“顿悟”发生前模型内部结构变化的“进度指标”。当前的挑战在于，如何将这些方法从理想化的简化场景，成功拓展到复杂的大规模语言模型实践中。如果我们知道该监测什么，就知道该在何时保持警惕。

其次，是构建能够检测自身局限性、并具备自我进化能力的动态评估系统。随着AI模型越来越具备智能体（Agent）的特征，这一点变得尤为紧迫。静态的、固定不变的评估手段，在面对能够编写代码、运行实验、进行自我改进的AI系统时，会显得日益脆弱。如果模型能力的进化速度超过了人类更新基准测试的速度，那么评估体系本身就必须具备自适应能力。

具体而言，我们需要监控“元信号”：基准测试得分的分布特征是否在发生漂移？不同评估任务之间的相关性结构是否在转移？模型是否正在发展出现有测量维度完全无法捕捉的新能力？同时，需要跟踪所有关键指标的规模化扩展曲线——不仅包括损失函数，还应涵盖推理深度、工具使用复杂度、策略性规划能力等，并对任何平滑趋势的突然断裂保持高度警觉。

更进一步，我们需要探索构建能够自我演进的评估生态系统：例如，利用一个AI模型去主动探测另一个模型的评估盲区；根据模型能力的动态变化自动生成新的测试案例；从而发现原始评估设计者从未预料到的失败模式。理想的评估套件应该是一个能够与其所测量的AI模型协同进化的“生命系统”，而不是一份为去年的前沿模型编写的静态检查清单。

归根结底，问题不在于我们的评估系统未来是否还会被“震惊”——这种情况在过去已屡见不鲜。真正的问题是：我们能否预见到下一次“震惊”的到来？

而就目前的状况来看，答案恐怕是否定的。

这一观点在AI社区中引发了广泛共鸣。有研究者完全赞同，并补充认为，除了构建动态评估系统，还需要开展持续的“评估红队对抗”工作，即主动攻击和暴露评估系统自身的缺陷与盲区，从而倒逼整个评估体系不断迭代升级。

评估体系的进化与突破，或许已成为AI实现下一次能力飞跃前必须跨越的那道隐形门槛。

来源:https://www.jiqizhixin.com/articles/2026-05-19-9

上一篇：中国移动与国智投领投月之暗面Kimi新一轮融资

下一篇：北航新国立AmbiSuR突破3DGS几何重建瓶颈实现高保真建模