数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI

DeepMind新突破：仅用两个参数，精准预测LLM错误率

DeepMind新突破：仅用两个参数，精准预测LLM错误率

热心网友时间：2026-01-27

转载

模型在需要连续多步推理的任务中表现不佳，未必是因为它“变笨了”或者“逻辑能力突然失效”。更可能的原因，是注意力机制中微小的预测偏差，像“热噪声”一样在漫长的生成过程中不断累积，最终达到了无法忽视的程度。这意味着，通过精心设计的 Prompt（例如强制模型使用更稳健的中间步骤来“重置”这种噪声），我们可以显著降低其犯错概率。

你是否遇到过这种情况：一个在写诗、编程上表现惊艳的大模型，却在进行简单的多位数加法、或者玩“汉诺塔”游戏时，随着步骤增多，会突然“智商掉线”？

相关研究论文发布于ArXiv。

通常，我们会把这种现象归结为“推理崩溃”或者模型缺乏“组合泛化能力”。但 Google DeepMind 和塔塔基础研究院的一项最新研究，提出了一个颠覆性的观点：这可能只是一个简单的“噪声累积”问题。

这项研究借鉴了物理学中有效场论的视角，发现尽管 LLM 拥有数千亿参数，但决定其在长序列任务中准确率的，居然只有两个关键的有效参数。

物理学视角的降维打击

在物理学中，虽然流体由无数微观分子组成，但在宏观层面，我们只需要“密度”和“粘度”等少数几个参数就能精确描述其整体行为。

研究团队认为，LLM 也是如此。虽然模型内部参数浩如烟海，但在处理确定性任务（如算术、逻辑推理）时，其错误行为可以被简化为一个双参数模型来刻画。

研究者提出，LLM 的出错并非源于“逻辑不懂”，而是源于注意力机制中微小的预测偏差。这些微小的偏差在长序列生成过程中不断累积，一旦超过某个阈值，模型就会输出一个错误的词元。

核心公式：仅需两个参数

基于上述假设，论文推导出了一个简洁优美的公式，用来描述模型准确率与任务复杂度之间的关系。

这个公式看着复杂，但核心变量只有两个：

1. r（噪声率）：这是一个极小的数，代表每个词元产生的基本“噪声”。

2. q（错误方向数）：这是一个数量级为 1 的数，代表在预测时可能偏离的“错误方向”的数量。

这个公式告诉我们：随着任务复杂度（例如加法位数、推理步数）的线性增加，噪声会以指数速度累积，导致准确率呈现特定的衰减曲线。

实验验证：惊人的拟合度

为了验证这个理论，研究团队在 Gemini 2.5 Flash、Gemini 2.5 Pro 以及 DeepSeek R1 上进行了广泛测试。测试任务包括列表反转、嵌套线性变换、动态规划、汉诺塔、加法乘法等 8 种类型，涉及超过 20 万个不同的 Prompt。

结果令人震惊：理论预测曲线与实际观测数据高度重合！

无论是 DeepSeek R1 还是 Gemini 系列，在绝大多数任务中，其错误率随任务长度的变化都完美遵循上述公式。

图表

图：不同模型在乘法任务上的准确率随复杂度变化的曲线，实线为理论预测，点为实际数据。可以看到拟合度极高。

有趣的发现：Gemini Pro 的“异常”

在“普通加法”任务中，Gemini 2.5 Pro 最初并不符合这个公式。为什么？

研究人员推测，这是因为 Gemini Pro 过于“聪明”，它可能针对不同长度的数字使用了不同的内部算法，破坏了模型参数不变的前提假设。

为了验证这一点，研究人员设计了一个 Prompt，强制模型使用特定的步骤分解算法来进行加法。结果，Gemini Pro 的表现立刻回归到了理论曲线。这反向证明了：只要算法路径是确定的，噪声累积理论就是成立的。

结论与启示

这项研究不仅为我们提供了一个量化评估 LLM 长任务可靠性的工具，更重要的是，它为“长文本推理”难题祛魅了。

模型在长任务中失败，不一定是因为它“变笨了”或“推理能力崩溃”，很可能只是因为注意力机制中的“热噪声”累积到了不可忽略的程度。这意味着，通过精心设计的 Prompt（例如强制模型使用更稳健的中间步骤来“重置”这种噪声），我们可以显著降低错误率。

物理学的思维方式，再一次在 AI 领域展现了其化繁为简的魔力。

来源:https://www.51cto.com/article/834944.html

上一篇：英国国王自购新车揭秘：全车中国零部件组装的背后

下一篇：理想汽车李想展望2028：2025年实现L4自动驾驶

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

同类文章

阿里钉钉文档全功能解析在线协同办公套件使用指南

阿里钉钉文档全功能解析在线协同办公套件使用指南

钉钉文档官网在探讨企业级协同办公解决方案时，钉钉文档无疑是备受瞩目的核心工具之一。作为阿里巴巴钉钉官方推出的旗舰级应用套件，它深度融合了在线文档编辑、智能表格、思维导图等多种高效创作工具。其核心优势在于与钉钉平台生态的无缝衔接，能够直接同步企业内部组织架构与通讯录，实现团队成员间的即时协作与信息流

时间：2026-05-15 23:00

商汤小浣熊智能助手基于自研大语言模型

商汤小浣熊智能助手基于自研大语言模型

在数字化转型浪潮中，高效、易用的数据分析工具已成为企业提升决策效率的关键。商汤科技推出的“办公小浣熊”智能助手，正是基于自研大语言模型打造的一款创新产品，旨在彻底降低数据分析的技术门槛。用户无需掌握编程知识或复杂操作，即可通过自然对话完成从数据查询、处理到可视化洞察的全流程，让数据价值触手可及。办

时间：2026-05-15 22:59

MiniMax新一代智能模型矩阵全面解析与应用指南

MiniMax新一代智能模型矩阵全面解析与应用指南

在人工智能技术快速发展的今天，MiniMax作为一家专注于全栈自研的AI公司，正以其独特的技术路径和前瞻性的布局，在业界脱颖而出。公司致力于构建覆盖文本、图像、语音和视频的新一代多模态智能模型矩阵，这不仅体现了对核心底层技术自主权的深度掌控，也展现了对未来人机交互与内容生成形态的前瞻思考。那么，M

时间：2026-05-15 22:59

智能客服机器人解决方案：AI客服系统提升企业服务效率

智能客服机器人解决方案：AI客服系统提升企业服务效率

在数字化转型浪潮中，一套能够深度适配业务、彰显品牌特色的智能客服系统，已成为企业提升服务效率与用户体验的关键工具。然而，市场上许多解决方案往往模式固化，难以满足个性化需求。如何让AI客服不仅具备基础的自动化应答能力，更能承载独特的品牌文化与服务哲学？其核心在于系统是否支持深度的自定义与持续的AI训练

时间：2026-05-15 22:59

开源企业答疑工具Danswer：高效解决团队知识管理难题

开源企业答疑工具Danswer：高效解决团队知识管理难题

Danswer 是一款专为企业设计的开源智能问答平台，支持用户使用自然语言直接提问，并能够从公司内部文档、知识库等私有数据源中快速检索，提供带有精准来源引用的可靠答案。核心功能：它如何解答问题？ Danswer 的核心价值在于实现了“智能问答”。用户无需再花费大量时间手动搜索和翻阅各类文件，只需像

时间：2026-05-15 22:59

热门专题

刀塔传奇破解版无限钻石下载大全

刀塔传奇破解版无限钻石下载大全

洛克王国正式正版手游下载安装大全

洛克王国正式正版手游下载安装大全

思美人手游下载专区

思美人手游下载专区

好玩的阿拉德之怒游戏下载合集

好玩的阿拉德之怒游戏下载合集

不思议迷宫手游下载合集

不思议迷宫手游下载合集

百宝袋汉化组游戏最新合集

百宝袋汉化组游戏最新合集

jsk游戏合集30款游戏大全

jsk游戏合集30款游戏大全

宾果消消消原版下载大全

宾果消消消原版下载大全

日榜
周榜
月榜

我的世界基岩版难度调整指令difficulty使用教程

红色沙漠延长飞行距离技巧与实用方法详解

三角洲行动电脑配置要求与最低配置推荐指南

王者荣耀世界零氪开荒阵容搭配攻略

Poki官方网页版免费小游戏大全在线即玩入口

云鸣潮网页版免费在线玩官方正版直接进入

红色沙漠勇武之步套装获取方法全攻略

三角洲行动陷阱拆除与战术道具使用全攻略

深海迷航手游控制台开启方法详细教程

三国志幻想大陆刘备命魂觉醒攻略与技能解析

小米汽车推出寻天子品牌增程车型将改变家用车市场格局

鸣潮赛博朋克联动角色全名单与获取指南

阴阳师5月8日补偿公告内容与领取方法详解

刺客信条影下载安装教程与新手入门指南

崩坏星穹铁道4.2下半卡池抽取指南与角色分析

牧场物语风之集市快速赚钱攻略与技巧分享

崩坏星穹铁道绯樱全面培养指南光锥遗器阵容搭配详解

艾尔登法环黑夜君临蓝量提升方法详解

王者荣耀世界英雄强度排行榜最新榜单

帕帕拉猩红辣妹强度解析吉星派对角色实战评测

《问剑长生》新大区预创角开启，是什么福利让玩家直呼夯爆了？

紧急！Axios 被投毒，3亿项目受到影响！教你怎么自查！

兆易创新2025年年营收92亿元，净利16亿元

TensorFlow - AI开发平台,AI开发框架

解决sql server2008注册表写入失败，vs2013核心功能安装失败

《九牧之野》S3乱世诡道主题服开启：4月18日上线，预备盟奖励与开服福利一文看懂

donk：对待季军赛的心态和决赛不一样，总之已经拿不到冠军了

iPhone 15耳机连接后音量小原因排查与解决

蛮荒领主手游测试资格获取方式蛮荒领主内测资格申请渠道与条件详解

极狐S3预告发布：三电可选、宽体运动设计，2026北京车展亮相

相关攻略

相关攻略

《炎龙骑士团2》详细全攻略

2015-03-10 11:25

《炎龙骑士团2》详细全攻略

《东吴霸王传2013》详细全关攻略

2015-03-10 11:05

《东吴霸王传2013》详细全关攻略

《臭作》之100%全完整攻略

2021-08-04 13:30

《臭作》之100%全完整攻略

《兰斯8》剧情攻略详细篇

2015-03-10 11:22

《兰斯8》剧情攻略详细篇

《英雄坛说》详细全攻略

2015-03-10 12:39

《英雄坛说》详细全攻略

《造梦西游2：十殿阎罗篇》BOSS档案及掉落装备全介绍及攻略

2022-05-16 18:57

《造梦西游2：十殿阎罗篇》BOSS档案及掉落装备全介绍及攻略

偷窃少女的教育方法全攻略

2025-05-23 13:43

偷窃少女的教育方法全攻略

无法抵挡小恶魔的诱惑攻略

2025-05-23 14:01

无法抵挡小恶魔的诱惑攻略

热门教程

游戏攻略
安卓教程
苹果教程
电脑教程

聪明开局吧第185关桥找出16个常用字通关图文攻略

聪明开局吧第185关桥找出16个常用字通关图文攻略发布于 2026-05-15

深海迷航2异星水域声波共振器获取与使用指南

深海迷航2异星水域声波共振器获取与使用指南发布于 2026-05-15

异环时停技能效果解析与实战应用指南

异环时停技能效果解析与实战应用指南发布于 2026-05-15

羊了个羊214关卡通关技巧与详细攻略分享

羊了个羊214关卡通关技巧与详细攻略分享发布于 2026-05-15

星球大战旧共和国武士2西斯领主重制版计划被EA取消

星球大战旧共和国武士2西斯领主重制版计划被EA取消发布于 2026-05-15

深海迷航2循环呼吸器蓝图位置与获取方法详解

深海迷航2循环呼吸器蓝图位置与获取方法详解发布于 2026-05-15

原神妮露技能解析与实战机制详解

原神妮露技能解析与实战机制详解发布于 2026-05-15

ARC Raiders背景故事解析与下次重大更新前瞻

ARC Raiders背景故事解析与下次重大更新前瞻发布于 2026-05-15

Apex英雄探路者最强武器搭配推荐

Apex英雄探路者最强武器搭配推荐发布于 2026-05-15

困境抉择游戏玩法解析：值得体验的策略挑战

困境抉择游戏玩法解析：值得体验的策略挑战发布于 2026-05-15

花底裤如何赋予我无限力量与自信

花底裤如何赋予我无限力量与自信发布于 2026-05-15

PlayStation无障碍游戏设备捐赠仪式在上海举办

PlayStation无障碍游戏设备捐赠仪式在上海举办发布于 2026-05-15

港务大亨竞拍风云怎么玩游戏玩法与特色介绍

港务大亨竞拍风云怎么玩游戏玩法与特色介绍发布于 2026-05-15

5月16日钓鱼活动公告：时间地点与报名指南

5月16日钓鱼活动公告：时间地点与报名指南发布于 2026-05-15

幻世录重制版2026年发售经典战棋游戏首曝预告

幻世录重制版2026年发售经典战棋游戏首曝预告发布于 2026-05-15

只狼三年前义父剧情触发全流程攻略

只狼三年前义父剧情触发全流程攻略发布于 2026-05-15

Win11桌面小组件添加与自定义设置教程

Win11桌面小组件添加与自定义设置教程发布于 2026-05-15

Win10磁盘配额设置教程如何限制用户磁盘使用空间

Win10磁盘配额设置教程如何限制用户磁盘使用空间发布于 2026-05-15

Windows 11 超级任务栏预览开启教程提升窗口悬停显示速度

Windows 11 超级任务栏预览开启教程提升窗口悬停显示速度发布于 2026-05-15

Win11多时区时钟设置教程添加显示多个地区时间

Win11多时区时钟设置教程添加显示多个地区时间发布于 2026-05-15

Windows 11 高性能图形加速设置教程强制系统调用独立显卡方法

Windows 11 高性能图形加速设置教程强制系统调用独立显卡方法发布于 2026-05-15

Windows 11游戏崩溃怎么解决优化显存设置提升3A大作稳定性

Windows 11游戏崩溃怎么解决优化显存设置提升3A大作稳定性发布于 2026-05-15

Win10查看磁盘使用情况与各分区容量方法详解

Win10查看磁盘使用情况与各分区容量方法详解发布于 2026-05-15

Win10文件夹视图设置教程统一显示方式详细步骤

Win10文件夹视图设置教程统一显示方式详细步骤发布于 2026-05-15

国产内存新架构突破30TB带宽实现自主供应链

国产内存新架构突破30TB带宽实现自主供应链发布于 2026-05-11

Edge浏览器网页捕获功能使用教程截取全屏与区域截图详解

Edge浏览器网页捕获功能使用教程截取全屏与区域截图详解发布于 2026-05-11

千度手机版官网免费入口手机端专用访问链接

千度手机版官网免费入口手机端专用访问链接发布于 2026-05-11

ES文件浏览器复制文件内容到剪贴板详细步骤教程

ES文件浏览器复制文件内容到剪贴板详细步骤教程发布于 2026-05-11

如何设置鼠标连点器的固定点击间隔秒数

如何设置鼠标连点器的固定点击间隔秒数发布于 2026-05-11

苹果iPhone 15截屏保存到相册的详细步骤教程

苹果iPhone 15截屏保存到相册的详细步骤教程发布于 2026-05-11

立升净水器滤芯更换方法与使用指南

立升净水器滤芯更换方法与使用指南发布于 2026-05-11

ES文件浏览器如何设置默认打开应用详细图文教程

ES文件浏览器如何设置默认打开应用详细图文教程发布于 2026-05-11

热门话题

魔术游戏下载-魔术游戏-2022热门的魔术小游戏大全

魔术游戏下载-魔术游戏-2022热门的魔术小游戏大全

刀塔传奇破解版在哪下-刀塔传奇破解版无限钻石下载大全-刀塔传奇破解版内购破解版合集

刀塔传奇破解版在哪下-刀塔传奇破解版无限钻石下载大全-刀塔传奇破解版内购破解版合集

饥荒下载免费中文版-饥荒下载破解版-饥荒正版全部版本下载合集

饥荒下载免费中文版-饥荒下载破解版-饥荒正版全部版本下载合集

拉布布游戏下载-拉布布游戏合集-拉布布系列游戏大全合集

拉布布游戏下载-拉布布游戏合集-拉布布系列游戏大全合集

洛克王国手游正版下载-洛克王国正版手游下载安装大全-类似洛克王国的手机游戏推荐

洛克王国手游正版下载-洛克王国正版手游下载安装大全-类似洛克王国的手机游戏推荐

神魔幻想单机游戏下载-神魔幻想单机游戏推荐-神魔幻想系列游戏下载合集

神魔幻想单机游戏下载-神魔幻想单机游戏推荐-神魔幻想系列游戏下载合集

最受女生欢迎的游戏_女生玩的手游_思美人手游下载专区

最受女生欢迎的游戏_女生玩的手游_思美人手游下载专区

疯狂越野系列游戏下载_疯狂越野全版本合集中文版下载

疯狂越野系列游戏下载_疯狂越野全版本合集中文版下载

神庙逃亡2破解无限金币无限钻石下载-神庙逃亡2国际版破解大全-神庙逃亡2版本合集

神庙逃亡2破解无限金币无限钻石下载-神庙逃亡2国际版破解大全-神庙逃亡2版本合集