我们别错怪大模型推理能力，剑桥解释失败行动是关键

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

科技数码

我们别错怪大模型推理能力，剑桥解释失败行动是关键

热心网友时间：2025-10-13

转载

【导读】为什么大模型，在执行长时任务时容易翻车？这让一些专家，开始质疑大模型的推理能力，认为它们是否只是提供了「思考的幻觉」。近日，剑桥大学等机构的一项研究证明：问题不是出现在推理上，而是出在大模型的执行能力上。

大模型也有「EMO」时刻。

比如，Gemini在Cursor里调试编译错误后，打开了自责「循环模式」，把「I am a disgrace（我很丢脸）」重复了86次。

尽管大模型在复杂推理能力上已有了巨大进步，但上述现象仍使一部分专家认为：

思考模型，只提供了「思考的幻觉」，因为当任务被拉长时它们最终会失败。

麻将

近日，剑桥大学等机构的一项研究对这些「翻车」现象作出解释，研究者认为：

问题不在于大模型的推理能力，而在于其执行计划的能力。

麻将

边际收益递减的错觉：衡量大语言模型的长时程任务执行能力https://arxiv.org/pdf/2509.09677

也就是说，大模型出现问题未必是源于「思考的幻觉」，而更可能是执行阶段「打滑」了。

研究人员发现，单步准确率的小幅提升，会复利式地放大你能完成的总步骤数，使任务「里程」指数级变长。

随着步骤数量增加，模型的每步准确率会下降——不仅仅是「上下文太长」，还有一个更「诡异」的现象：自条件化效应（self-conditioning）。

所谓「自条件化」，当上下文里包含模型先前犯过的错，将导致它在后续过程中会更容易再犯错。

任务变长就失败，只因模型不会推理？

业界正竞相打造能够处理整个项目而非孤立问题的智能体，随之而来的一个根本问题是：

如何度量大模型能可靠执行的步骤数量？

任务一变长，就失败。是因为大模型「不会推理」吗？

研究人员认为，大模型在早期多步中能正确遵循指令，说明其具备按计划执行的能力。

这也证明，大模型不是失败在了推理上，而是在执行上：

随着任务变长，模型在执行计划时更可能出错。

麻将

目前，大量研究聚焦于大模型的推理能力，而对执行稳定性关注不足。

这一点，随着大模型被用于长推理与智能体任务，重要性也正日益上升。

单步稳一点，长跑多一截

长视界任务需要大量步骤，其中任务长度，即为完成任务所需的步骤数。

研究人员通过下面几个指标来评估性能：

步骤准确率（Step Accuracy）：度量在第i-1步到第i步的状态更新是否正确的样本占比，而不考虑模型在第i-1步的状态是否正确；轮次准确率（Turn Accuracy）：一轮是与模型的一次交互，可能需要执行多个步骤。轮次准确率度量在第t-1轮到第t轮的状态更新是否正确的样本占比，而不考虑模型在第t-1轮的状态是否正确；轮次复杂度（K）（Turn Complexity）：定义为模型每轮必须执行的步骤数；任务准确率（Task Accuracy）：度量模型在执行i个步骤的过程中不犯任何错误、从而完成任务的样本占比；视界长度（Hs）（Horizon Length）：给定成功率阈值0 ≤ s ≤ 1。将模型的视界长度定义为模型在第i个步骤处的平均任务准确率降到低于概率s的位置。

如图2所示，模型在超过50%准确率下可执行的任务长度，在单步准确率超过70%后，随单步准确率增加，而呈现快于指数的增长。

图3显示了如何把「长视界任务」，抽象为一串可控的小步骤，以及如何只测「执行力」，而不掺杂「规划力」。

左图中，该框架将长视界任务建模为一系列「先检索、再合成」的步骤。

右图中，研究人员设计了一个简单任务，用以将规划与执行解耦：

每一轮以键（key）给出计划，要求模型检索对应值（value），并计算累计和。

该推导表明，即便在问答类任务上准确率的提升似乎在放缓，仍然可以在更长的任务上预期得到巨大的收益。

例如，在软件工程任务上，前沿模型在s=0.5时的视界长度呈指数增长，每7个月翻一番。

研究人员认为，单轮或短任务基准，在评估进一步投资LLM算力收益时，可能制造出「进展放缓」的错觉，而模型可完成的任务长度，是更能指示经济价值的指标，它们却可能在快速增长。

只考「执行力」把规划和知识先拿掉

研究人员把「要做什么」（规划）和「知道什么」（知识）都喂给模型，只考它能不能稳定地把步骤一口气做完。

这样就能纯粹度量LLM的长视界执行能力。

以订机票为例。

现实中，订机票不是一句「帮我订」就完了，它是一串流程：

打开某个航班详情；核对起降时间、行李额度、转机时长、准点率、口碑；套用里程、会员、优惠券；在「价格×时长×偏好」的权衡里做选择。

其中的每一步，都要先「检索」信息/调用工具，再把新信息与当前判断融合。

评完一个航班是一次执行；评完多条备选航班直到下单，是一段长视界执行。

经常会有人将执行失败归因到「不会推理/不会规划」。

研究人员则认为，就算推理、规划和世界知识都完美，LLM在长链条上仍可能因为「执行不稳」而失误。

因此，他们将执行单独拎出来测——把计划和知识都显式提供，只让模型照做。

研究人员首先验证这样的假设：

即便在不需要世界知识与规划的任务上，长视界执行也会很难。随后，再研究扩大模型规模对长视界执行的益处。

麻将

研究人员评估了Qwen3、Gemma3模型家族。

在实验中，研究人员将轮次复杂度设置为最简单形式（K=1），每轮仅提供一个键，并改变轮次数量。

结果1：长视界执行仍然很具挑战性。

如图4所示，除了Gemma3-4B与Qwen3-4B外，所有模型在第一步的准确率均达到了100%，表明它们具备完成我们任务单步所需的知识与推理能力。

然而，任务准确率在后续轮次迅速下滑。

即便是表现最好的Qwen3-32B，其准确率也会在15轮内跌到50%以下。

这证实了研究人员的假设：

即便移除了规划和知识需求，长视界执行依然很难。

麻将

如图4，研究人员改变模型规模，并研究随着轮次数增加的完整任务准确率（a）与逐轮准确率（b）。

粗体线是5轮的滑动平均。

虚线（b）中的逐轮准确率显示除了最小的模型外，任务的单步准确率都是100%。

然而，随着轮次数增加，小模型与大模型的性能差距拉大（a），后者拥有显著更长的视界长度（c）。

结果2：扩大模型规模的收益并不递减。

如图4（a）所示，更大的模型能在更多轮次上保持更高的任务准确率，从而带来清晰的视界长度缩放趋势（图4（c））。

这验证了两点重要结论：

长视界执行是困难的；

扩大模型规模，能显著增加模型可正确执行的轮次数。

麻将

自条件化效应，为什么轮次准确率会退化？

人们可能会期望，模型会在逐轮中保持恒定。

然而，图4（b）显示，随着轮次数增加，各轮的准确率稳步下降。

研究人员考察两个相互竞争的假设：

无论上下文内容如何，模型的性能仅仅由于上下文变长而退化。

模型会基于其过去的错误自条件化：看到前几轮的错误之后，它更可能在后续轮中犯错。

麻将

为解开这两个因素，研究人员通过操控模型的聊天历史，进行反事实实验。

他们用所选错误率注入人工输出历史，来控制错误率，格式保持一致。

如果完全「治愈」历史（诱导错误率为0%），那么模型在第1轮，与较后某一轮之间的准确率退化，就可归因于长上下文问题。

如果在保持「较后某一轮」固定的情况下，随着先前轮次错误率的上升，模型的准确率持续变差，这将表明模型会基于自己的过往错误进行条件化，从而提高未来错误的可能性。

结果3：自条件化，会在长上下文之外进一步导致逐轮准确率退化。

图5（a）中的结果显示，长上下文与自条件化都会导致退化。

研究人员发现，当基于无错历史进行条件化（诱导错误率=0.00）时，第100轮的逐轮准确率低于初始值，与先前关于长上下文退化的观察一致。

更有意思的是，当研究人员提高注入到上下文中的错误率时，第100轮的准确率会持续下降。

这表明了自条件化效应：当模型犯错时，它更可能继续犯错，导致如图5（b）所示的逐轮准确率在输出轨迹中持续退化。

结果4：与长上下文不同，扩大模型规模不能缓解自条件化。

注意在诱导错误率为0的情况下，第100轮的准确率会随着模型变大而稳定提升。

如图5（c）所示，把规模扩展到前沿（200B+参数）的模型，如Kimi-K2、DeepSeek-V3以及Qwen3-235B-Instruct-2507，基本解决了在100轮以内的长上下文退化问题，在「治愈」历史下实现了近乎完美的准确率。

然而，即便这样，这些大模型仍然容易受到自条件化的影响，当其历史中的诱导错误率上升时，性能仍会持续退化。

这或许与近期结果相似：

更大的模型在多轮对话中会出现人格漂移。在该项研究中，漂移的方向是「更容易犯错」的人格。

麻将

此外，模型会基于其过去的错误进行自条件化，导致每步准确率的退化。仅扩大模型规模不足以缓解这一点。

结果5：思考修复了自条件化。

图6中，研究人员清楚看到Qwen3的思考模型不会自条件化。

无论上下文中的错误率如何，模型在第100轮的准确率都保持稳定。

研究人员将之归结为两个原因：

其一，RL训练可能降低了语言模型「续写最可能下一个Token」的行为，使其更面向任务成功而非延续上下文。

其二，去除先前轮的思考轨迹，可能降低先前轮对模型输出的影响，因为模型会独立地思考新的这一轮。

启用思考的Qwen3模型不再发生自条件化，即便整个先前历史都是错误答案；这与非思考设置的结果形成对比。

研究人员以单轮可执行的任务长度为指标，对近期的「思考/Thinking」类模型，进行了基准评测，发现它们「抗翻车能力」更强：

它们不太会被先前错误带偏（自条件化被显著修复）；

在单轮里就能把更长的任务跑完。

这证实了「先推理，后行动」的重要性，比如：

DeepSeek-V3不加思维链跑2步都难，但其思考版R1却能跑到200步；

GPT-5 Thinking单轮可执行1000+步，Claude-4-Sonnet约432步。

作者简介

Akshit Sinha，剑桥大学机器学习与机器智能MPhil（MLMI）研究生。研究方向为大模型能力评估与提升、图神经网络（GNN）解释性与「遗忘/反学习」、多智能体等。

在此之前，Akshit Sinha在IIIT Hyderabad计算机科学与工程学院获得荣誉学士学位。他在Ponnurangam Kumaraguru的指导下，在Precog实验室从事基于图的机器学习研究。

参考资料：

https://x.com/arvindh__a/status/1966526369463951424

来源:https://36kr.com/p/3507465722174594

上一篇：已故名人被AI复活引争议 Sora2技术遭家属集体抵制

下一篇： Sora2用AI复活逝者引争议，家属不满强烈抵制（注：原标题核心信息被压缩，“Sora2”和“亲属反对”作为核心关键词，事件性质用“争议”点出，控制在21个字/42字符内）

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

热门专题

刀塔传奇破解版无限钻石下载大全

洛克王国正式正版手游下载安装大全

思美人手游下载专区

好玩的阿拉德之怒游戏下载合集

不思议迷宫手游下载合集

百宝袋汉化组游戏最新合集

jsk游戏合集30款游戏大全

宾果消消消原版下载大全

日榜
周榜
月榜

Take-Two 采用 AI 技术制作游戏预告片

锚点降临伤害计算公式与实战解析

上海开眼信息以资深经验领跑2026年GEO优化与AI智能营销服务

《命运2》停更后 Bungie新作《马拉松》遭玩家差评

2026年三维扫描仪选购指南精度自动化与服务全面解析

嘉德股份首日上市暴涨710% 中签一手盈利5.6万元

WPS文档背景颜色设置技巧提升视觉体验

通义万象制作壁纸与头像的图片效果实测

奔驰纯电GLC到店实拍 630马力空气悬架豪华科技配置价格解析

PPT演示如何添加背景音乐并提升效果

漫蛙漫画防走失网页链接

永劫无间账号购买平台推荐与安全交易指南

梦幻魔法公主善恶值系统解析与调整方法指南

茶叶蛋的冒险第14关荡秋千怎么过图文通关攻略详解

无畏契约源能行动一局游戏需要多长时间

茶叶蛋大冒险第16关怎么过相对运动图文通关攻略

蓝色星原旅谣角色强度榜与技能实战解析

蔚蓝星球零氪微氪新手攻略 20条技巧助你开局避坑

茶叶蛋大冒险第18关通关攻略图文详解隐藏关卡怎么过

文字三国志游戏评测与新手玩法指南

漫蛙漫画防走失网页链接

《问剑长生》新大区预创角开启，是什么福利让玩家直呼夯爆了？

紧急！Axios 被投毒，3亿项目受到影响！教你怎么自查！

兆易创新2025年年营收92亿元，净利16亿元

TensorFlow - AI开发平台,AI开发框架

解决sql server2008注册表写入失败，vs2013核心功能安装失败

《九牧之野》S3乱世诡道主题服开启：4月18日上线，预备盟奖励与开服福利一文看懂

donk：对待季军赛的心态和决赛不一样，总之已经拿不到冠军了

iPhone 15耳机连接后音量小原因排查与解决

蛮荒领主手游测试资格获取方式蛮荒领主内测资格申请渠道与条件详解

我们别错怪大模型推理能力，剑桥解释失败行动是关键

任务变长就失败，只因模型不会推理？

单步稳一点，长跑多一截

只考「执行力」把规划和知识先拿掉

自条件化效应，为什么轮次准确率会退化？

作者简介

DeepSeek宣布永久降价梁文锋大幅让利远超市场预期

国产600公斤推力涡扇发动机首飞成功中国心实现自研突破

小米米家空调巨省电Pro大1.5匹价格降至1868元

国产600公斤推力涡扇发动机成功完成首次飞行

国产600公斤推力涡扇发动机首飞成功核心技术自主研制

我们别错怪大模型推理能力，剑桥解释失败行动是关键

任务变长就失败，只因模型不会推理？

单步稳一点，长跑多一截

只考「执行力」把规划和知识先拿掉

自条件化效应，为什么轮次准确率会退化？

作者简介

DeepSeek宣布永久降价 梁文锋大幅让利远超市场预期

国产600公斤推力涡扇发动机首飞成功 中国心实现自研突破

小米米家空调巨省电Pro大1.5匹价格降至1868元

国产600公斤推力涡扇发动机成功完成首次飞行

国产600公斤推力涡扇发动机首飞成功核心技术自主研制

DeepSeek宣布永久降价梁文锋大幅让利远超市场预期

国产600公斤推力涡扇发动机首飞成功中国心实现自研突破