当前位置: 首页
AI
DeepMind新突破:仅用两个参数,精准预测LLM错误率

DeepMind新突破:仅用两个参数,精准预测LLM错误率

热心网友 时间:2026-01-27
转载

模型在需要连续多步推理的任务中表现不佳,未必是因为它“变笨了”或者“逻辑能力突然失效”。更可能的原因,是注意力机制中微小的预测偏差,像“热噪声”一样在漫长的生成过程中不断累积,最终达到了无法忽视的程度。这意味着,通过精心设计的 Prompt(例如强制模型使用更稳健的中间步骤来“重置”这种噪声),我们可以显著降低其犯错概率。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

你是否遇到过这种情况:一个在写诗、编程上表现惊艳的大模型,却在进行简单的多位数加法、或者玩“汉诺塔”游戏时,随着步骤增多,会突然“智商掉线”?

相关研究论文发布于ArXiv。

通常,我们会把这种现象归结为“推理崩溃”或者模型缺乏“组合泛化能力”。但 Google DeepMind 和塔塔基础研究院的一项最新研究,提出了一个颠覆性的观点:这可能只是一个简单的“噪声累积”问题。

这项研究借鉴了物理学中有效场论的视角,发现尽管 LLM 拥有数千亿参数,但决定其在长序列任务中准确率的,居然只有两个关键的有效参数。

物理学视角的降维打击

在物理学中,虽然流体由无数微观分子组成,但在宏观层面,我们只需要“密度”和“粘度”等少数几个参数就能精确描述其整体行为。

研究团队认为,LLM 也是如此。虽然模型内部参数浩如烟海,但在处理确定性任务(如算术、逻辑推理)时,其错误行为可以被简化为一个双参数模型来刻画。

研究者提出,LLM 的出错并非源于“逻辑不懂”,而是源于注意力机制中微小的预测偏差。这些微小的偏差在长序列生成过程中不断累积,一旦超过某个阈值,模型就会输出一个错误的词元。

核心公式:仅需两个参数

基于上述假设,论文推导出了一个简洁优美的公式,用来描述模型准确率与任务复杂度之间的关系。

这个公式看着复杂,但核心变量只有两个:

1. r(噪声率):这是一个极小的数,代表每个词元产生的基本“噪声”。

2. q(错误方向数):这是一个数量级为 1 的数,代表在预测时可能偏离的“错误方向”的数量。

这个公式告诉我们:随着任务复杂度(例如加法位数、推理步数)的线性增加,噪声会以指数速度累积,导致准确率呈现特定的衰减曲线。

实验验证:惊人的拟合度

为了验证这个理论,研究团队在 Gemini 2.5 Flash、Gemini 2.5 Pro 以及 DeepSeek R1 上进行了广泛测试。测试任务包括列表反转、嵌套线性变换、动态规划、汉诺塔、加法乘法等 8 种类型,涉及超过 20 万个不同的 Prompt。

结果令人震惊:理论预测曲线与实际观测数据高度重合!

无论是 DeepSeek R1 还是 Gemini 系列,在绝大多数任务中,其错误率随任务长度的变化都完美遵循上述公式。

图表图表

图:不同模型在乘法任务上的准确率随复杂度变化的曲线,实线为理论预测,点为实际数据。可以看到拟合度极高。

有趣的发现:Gemini Pro 的“异常”

在“普通加法”任务中,Gemini 2.5 Pro 最初并不符合这个公式。为什么?

研究人员推测,这是因为 Gemini Pro 过于“聪明”,它可能针对不同长度的数字使用了不同的内部算法,破坏了模型参数不变的前提假设。

为了验证这一点,研究人员设计了一个 Prompt,强制模型使用特定的步骤分解算法来进行加法。结果,Gemini Pro 的表现立刻回归到了理论曲线。这反向证明了:只要算法路径是确定的,噪声累积理论就是成立的。

结论与启示

这项研究不仅为我们提供了一个量化评估 LLM 长任务可靠性的工具,更重要的是,它为“长文本推理”难题祛魅了。

模型在长任务中失败,不一定是因为它“变笨了”或“推理能力崩溃”,很可能只是因为注意力机制中的“热噪声”累积到了不可忽略的程度。这意味着,通过精心设计的 Prompt(例如强制模型使用更稳健的中间步骤来“重置”这种噪声),我们可以显著降低错误率。

物理学的思维方式,再一次在 AI 领域展现了其化繁为简的魔力。

来源:https://www.51cto.com/article/834944.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
谷歌内存论文疑被抄袭,华人学者控诉业内学术不公

谷歌内存论文疑被抄袭,华人学者控诉业内学术不公

新智元报道编辑:好困 Aeneas【新智元导读】把闪存股一夜干崩的谷歌顶会论文,出大事了。TurboQuant的核心方法,两年前就被一位华人学者做完、发完顶会、代码全部开源了。谷歌不仅没正面提及,而

时间:2026-03-28 16:58
OpenClaw漏洞威胁:智能家居被反锁与隐私泄露风险

OpenClaw漏洞威胁:智能家居被反锁与隐私泄露风险

新智元报道编辑:倾倾【新智元导读】2025年底,极客圈发生了一场数字哗变,Anthropic的遮羞布被Peter Steinberger撕了个精光。从OpenClaw开源到Claude被扒出80页「

时间:2026-03-28 16:52
华为大模型负责人离职,重大人事变动引发行业关注

华为大模型负责人离职,重大人事变动引发行业关注

智东西作者|江宇编辑|冰倩智东西3月28日报道,今日,华为诺亚方舟实验室主任、华为盘古大模型负责人王云鹤在朋友圈发文,确认离职。王云鹤于2017年以华为北京部门首位实习生身份加入,至今已接近9年。在

时间:2026-03-28 16:46
Nature重磅:AI生成论文在顶会通过率55%,单篇成本仅15美元

Nature重磅:AI生成论文在顶会通过率55%,单篇成本仅15美元

新智元报道编辑:元宇【新智元导读】刚刚,Nature盖章AI独立科研时代!全新Scaling Law显现,人类死守的学术铁王座,正发生不可逆的转移。一篇长达数十页的学术论文,在人类设定研究主题和实验

时间:2026-03-28 15:07
CMU首创无毒AutoGEO方案,破解GEO投毒产业链焦虑

CMU首创无毒AutoGEO方案,破解GEO投毒产业链焦虑

新智元报道编辑:LRST【新智元导读】ChatGPT上线广告、315曝光GEO投毒产业链,AI搜索商业化的隐忧接连浮出水面。龙虾热背后,3000元就能让AI搜索信口开河,离全面「瞎说」还有多远?来自

时间:2026-03-28 15:01
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程