斯坦福大学揭秘AI数手指失败原因大模型为何无法准确计数
这项由斯坦福大学电气工程系主导的研究,于2026年5月以预印本形式发表于arXiv(编号arXiv:2605.02028),揭示了一个看似简单却直指核心的问题。研究团队设计了一个出人意料的测试——让AI模型数数——结果暴露了当前大型语言模型在执行规则方面存在根本性局限。

一个引人深思的现象是,那些能够撰写复杂代码、解答数学难题、分析长篇文档的AI助手,却可能在数数这项基础任务上彻底失败。这种失败并非渐进式的偏差,而是在某个临界点后突然崩溃,报出“500”或“1000”这样的整数,仿佛一个孩子数完手指后便开始胡乱猜测。这背后隐藏的,是关于AI能力本质的深刻疑问。
斯坦福的研究者观察到,AI在各种考试中表现日益出色,但这种“出色”究竟源于对规则的真实理解,还是仅仅模仿了规则的表象?为了探究真相,他们设计了一个极简测试:给AI一串重复的字母,让它数出个数。任务不涉及任何复杂知识或语义理解,只需重复执行“加一”操作。测试结果令人深思:所有参与测试的一百多个模型版本,都在某个数字上彻底崩溃,而这个崩溃点远低于模型官方宣称的文字处理能力上限。
为什么数数能揭露AI的真面目
要理解这项研究的价值,首先需要审视常规的AI测试是如何进行的。
通常,我们通过出题来评估AI:解数学题、写代码、回答科学问题。这些测试固然重要,但存在一个根本缺陷:答对题目,未必意味着AI真正“理解”了原理。它可能只是在训练数据中见过类似题目,记住了答案,或者凭借语言模式拼凑出一个看似合理的回答。这就好比判断一个学生是否掌握了物理,不能只看他是否背熟了例题答案。
研究者将这类测试称为“依赖知识的测试”。其问题在于,当AI接触过海量相关内容后,它完全可以“表演”出理解的样子,真假难辨。
与此相对,他们提出了“纯机械测试”的概念。这类测试规则极其简单,输入是人工合成的,不含任何需要记忆的知识或语义暗示,输出必须是精确数字。更重要的是,测试用例可以无限生成,杜绝了AI靠记忆答案蒙混过关的可能。数数,正是这种纯机械测试的完美范例。
数数的规则只有一条:“每遇到一个字母,计数加一”。输入是“a, a, a, a, a, ...”这样的无意义重复序列。AI需要做的,仅仅是从头到尾执行这条规则并报告结果。如果它能做到,说明它确实在执行规则;如果不能,那么它在其他复杂任务中表现出的“规则执行能力”,就值得重新审视了。
测试设计:一把步步升高的“梯子”
研究者将这套测试命名为“稳定计数能力”测试。其设计如同逐级升高的梯子:AI若能稳定数清某一长度范围的序列,就挑战更长的序列,直至其无法稳定给出正确答案。
具体而言,测试从约32个字母的序列开始。在这一档,研究者会随机生成16个长度略有波动(在32上下20%范围内)的序列让AI计数。如果AI在16次尝试中,每次答案与正确答案的偏差都在5%以内,则视为在该长度“稳定通过”,随后序列长度翻倍,继续测试。若AI在某个长度失败,则在其最后通过与最早失败的长度间精确搜索,找出其“数数极限”,即“计数容量”。
这个设计的巧妙之处在于,由于每次测试的序列长度随机波动,AI无法靠猜测“大概范围”来侥幸过关。即便崩溃后它随口报出“500”,也会因为正确答案可能是83或117而频繁出错,无法稳定通过任何一档。
为了全面评估,研究团队测试了超过126个不同的模型版本,涵盖OpenAI的GPT系列、Anthropic的Claude系列、Google的Gemini系列以及多个开源模型。整个测试的API花费约200美元,堪称一次高性价比的“能力体检”。
所有AI都有数数上限,且出乎意料地低
测试结果迫使人们重新思考对AI能力的认知。
所有被测试的模型,无一能无限地数下去。每个模型都有一个明确的“崩溃点”,超过此点,准确计数便不复存在。更令人意外的是,这个崩溃点远低于模型官方宣称的“上下文窗口”——即它们声称能处理的最大文字量。
举例来说,有些模型的上下文窗口号称能处理数十万甚至百万字符,但其计数容量可能只有几百甚至不足一百。这意味着,AI即便能“读到”序列中的每一个字母,也无法可靠地对它们逐一计数。处理长文本与在长文本中精确执行规则,是两件完全不同的事。
不同模型的表现差异显著。总体而言,较新的模型通常能数到更大的数字,但即便是最新、最强大的前沿模型,也都在远低于其宣传上下文长度的地方宣告失败。这就像一个自称能记住整本书内容的人,却无法数清第一章里有多少个逗号。
崩溃模式:非渐进偏离,而是突然坠崖
AI崩溃时的具体表现更耐人寻味。
如果AI使用的是某种近似估算方法,那么随着序列变长,其误差应逐渐增大,如同目测估算人群数量,人数越多偏差越大,但方向大致正确。然而事实恰恰相反:在崩溃点之前,AI的表现近乎完美;一旦超越临界点,其输出便如坠崖般跳转到完全离谱的数字。
研究者观察到,当AI失去计数能力后,并非随机猜测,而是倾向于输出一些“圆整”的数字,如500、1000、2000。这些数字在现实语境中常被用来指代“大量”。也就是说,当AI不知正确答案时,它会退回到“常识性的大数字猜测”模式,而非继续尝试遵循规则。
将所有模型的数据叠加分析后,这种“崩溃前完美、崩溃后乱猜”的模式具有普遍性。而且,崩溃后的错误答案在分布图上呈现出明显的水平条纹——大量答案聚集在500附近,另一批聚集在1000附近——这种分布不像随机误差,倒像是AI在查阅一个“常见大数字”的内部列表。
在所有测试中,有5%的尝试(9797次中有501次)甚至未能输出有效数字,而是返回了空白、重复输入、代码格式或莫名其妙的“推理过程”。这表明,一旦计数状态崩溃,连“回答一个数字”这类基本指令遵循能力也会受到波及。
符号与格式:微调即变的表现
研究者还进行了一项启发性的变体测试:改变序列中的字母或分隔符号。
原始测试使用小写字母“a”加逗号分隔。当尝试将字母更换为其他字母、数字、希腊字母、中文字符,或将逗号换为空格、竖线、分号时,许多模型的计数容量发生了显著变化,时好时坏,且这种变化与输入token数量(AI处理文本的基本单位)的变化并不完全吻合。
这一发现意味着什么?它说明AI的计数能力并非建立在抽象、通用的“计数规则”之上,而是与具体的符号、输入格式紧密绑定。不同的字母和标点会触发不同的内部处理路径,每条路径各有其容量上限。好比一个人数苹果能数到100,数梨子却只能到50——若真正理解“数数”的本质,换任何对象都应一样;但若只是靠记忆硬背“数苹果的方法”,换个对象就会彻底混乱。
更多“思考时间”于事无补
一个合理的推测是:也许AI需要更多的“思考过程”来辅助计数?毕竟,许多模型支持“思维链”方式,即在最终答案前进行一步步推导,类似于打草稿。
为验证此猜想,研究者比较了普通模型与“推理增强版”模型(即消耗更多计算资源、生成更多中间步骤的版本)的计数表现。结果出人意料:推理增强版消耗的token数量常是普通版的数倍乃至数十倍,但计数容量的提升微乎其微,有些模型甚至表现更差。
从总体数据中,研究者总结出一条经验规律:稳定计数时,大约每消耗两个token才能可靠地计一个数。并且,消耗多少token与能数多少之间存在一个天花板,超越此限,再多的计算资源也无济于事。这表明,计数失败的根本原因不在于“想得不够多”,而在于某种更基础的内部状态已然耗尽——这种状态无法通过额外计算来补充。
研究者用一个贴切的比喻来描述:这就像数手指。人类有十根手指,数到10没问题,但数到10之后,无论多努力,也无法用手指继续数下去,除非借助其他工具。AI的处境类似:它有一定数量的“内部状态槽”,用尽即尽,多“思考”一会儿也无法补充。
资源共享:数数与复杂任务争夺同种有限资源
为了验证计数所用的内部资源是否与其他认知任务共享,研究者设计了一组“双任务干扰实验”。
实验方法是让AI同时完成两件事:一边数序列中某个字母的数量,一边回答一道来自真实基准测试的题目(可能是推理、编程、数学或知识题)。随后,比较这种“双任务”下的计数误差与单独计数时的误差。
结果非常清晰:当AI需要同时处理推理或编程任务时,其计数准确度大幅下降,误差远高于单独计数。相比之下,如果只是让AI阅读一段同等长度的无意义随机代码,对计数的干扰则小得多。更有趣的是,若让AI同时数两个不同字母的数量(一个更复杂的计数任务),其对计数准确度的干扰反而小于复杂推理任务。
这说明,干扰源于任务本身的复杂程度,而非仅仅是任务长度。推理和编程这类需要大量内部状态维护的任务,与数数竞争同一种有限资源,从而导致计数表现下降。换言之,AI的“工作记忆”是有限的,且为多种任务所共享。
窥探内部:AI“大脑”中发生了什么
以上均是从外部行为观察。研究者还进一步“打开”了一个开源模型,直接查看其内部运作。
他们选用的是权重公开的Gemma 3 27B-it模型。该模型行为与其他模型一致:数到27个字母前完全正确,之后突然崩溃,开始重复输出60、100等整数。
研究者首先进行了“残差流投影”分析。通俗讲,就是在AI处理数数任务时,于每一层神经网络输出处捕捉“快照”,试图从中读出当前的计数状态。结果发现,在模型成功计数阶段,确实存在一个线性方向,沿此方向投影出的数值随序列长度增加而线性增长,精确追踪着计数进度。这种线性结构在多个不同网络层(第16、31、40、53层)均能观察到。
然而,当序列长度超过计数容量时,这种线性结构突然消失,秩序被混乱取代。这意味着模型内部确实存在一种计数状态,但这种状态是有限的,一旦耗尽,便无法读取,模型也就失去了输出正确答案的依据。
研究者还进行了“强制解码”实验:给模型指定正确答案格式,仅让其判断“最可能的下一个token是什么”,观察即便给予提示,模型是否仍认为正确答案合理。结果发现,在成功计数范围内,模型坚信正确答案正确;但一旦超过计数容量,即便给予格式提示,模型也不再认为正确答案是最优选择,其“内心”更倾向于那些圆整的猜测数字。这说明失败并非输出层面的小问题,而是深层认知状态的真实崩溃。
此外,通过使用“稀疏自编码器”工具分析哪些神经元特征与计数最相关,研究者并未找到单一的“计数神经元”。与计数相关的特征是由多个非单调变化的特征共同组成的联合体。这表明AI的计数能力由众多神经元协同实现,是一种分布式、复杂的协作状态,而非像计算机那样由一个简单计数器完成。
“激活补丁”实验:验证因果关系
仅观察还不够。研究者进行了一系列“手术实验”,直接修改AI内部激活状态,以验证这些状态与输出之间是否存在真正的因果关系。
实验逻辑如下:从一个正在数不同数量字母的“捐献者”模型中,提取某一层的神经激活状态,然后将其移植到另一个正在数不同数量字母的“接受者”模型中,观察接受者的输出是否会相应改变。这好比将一个人数到15时的大脑状态,移植到另一个数到10的人脑中,看他最终报出15还是10。
研究者尝试了两种移植方式:一是仅替换最后一个处理单元的状态(相当于在即将说出答案时换上别人的“记忆”);二是替换整个序列处理过程中的所有状态(相当于从头到尾采用别人的“处理方式”)。
结果发现,两种方式均能在一定程度上改变模型输出,但效果在不同网络层差异显著。仅替换最后状态的方式,只在非常靠后的网络层(第51层,共62层)才有效果。替换整个序列的方式,在中间层(第31层)就能产生强烈影响,且效果远强于仅替换最后状态。
这两个发现共同描绘出AI内部计数的“流程”:模型先在中间层的处理过程中,逐字母地建立起追踪序列进度的状态轨迹;然后在靠近输出的晚期层,将此轨迹信息汇聚到最后一个处理位置,并从中解码出最终数字答案。一旦中间层的轨迹无法建立(因超过容量),晚期层便无可用信息,自然无法给出正确答案。
这一机制在另一个完全不同架构的模型(Qwen 3.5 35B,一种混合专家模型)上也得到了类似验证,表明这并非某个特定模型的独特缺陷,而是当前一代AI架构的普遍特征。
与传统测试的对比:揭示系统性盲点
确认计数容量能揭示AI内部状态的真实情况后,研究者将其与三个主流AI评测基准进行了比较:专注知识问答的GPQA Diamond测试、专注代码能力的SWE-bench测试,以及专注抽象推理的ARC-AGI-2测试。
在知识和代码测试方面,AI在这些传统测试上的得分与计数容量之间的相关性相当弱。简言之,一个在知识问答上表现优异的AI,未必有更高的计数容量;反之亦然。这说明传统测试与机械执行能力衡量的是不同的维度,各有盲点。
与ARC-AGI-2的对比则更为耐人寻味。ARC-AGI-2是一个旨在减少知识依赖、强调抽象推理的测试,被认为更接近“测试真正智能”。然而研究者发现,在ARC-AGI-2公开发布之前训练的模型,在该测试上普遍得分很低,但它们的计数容量却各不相同,分布分散,两者无明显关联。而在ARC-AGI-2发布之后训练的新模型,得分普遍大幅提升,且得分与计数容量之间呈现出很强的线性相关。
这一现象揭示了一个深层问题:新模型在ARC-AGI-2上得分更高,未必是因为推理能力真正提升,更可能是因为它们在训练时接触到了该测试的任务格式,从而“学会”了如何应对这类题目。一旦掌握了任务格式,它们在ARC-AGI-2上的表现就变成了计数容量的函数——也就是说,至此,限制其表现的瓶颈才是真正的机械执行能力,而非“是否理解题目”。这与ARC-AGI-3明确声明要防止测试数据泄露的初衷不谋而合。
不止于数数:更复杂的规则追踪同样受限
或许有人会想:AI可能只是不擅长数重复字母这种单调任务,换成稍有结构的任务会否好转?
研究者也对此进行了测试,设计了一个“层级规则追踪”任务:给AI看一系列结构化记录,每条记录包含一个关键词和一条嵌套路径(路径中用交替括号嵌套不同层次信息),以及一堆无关干扰词。AI需要判断每条记录中,关键词是否与路径最深层的词匹配,然后统计所有匹配的数量。
此任务比单纯数字母复杂得多,需要维护更丰富的内部状态(需追踪嵌套层级),但本质仍是“执行简单规则,维护计数状态”。结果,即便是表现最好的模型,也仅在416个正确匹配内保持稳定,超过此数同样突然崩溃。这表明,计数容量的限制并非只针对“数重复字母”这类单调任务,而是反映了AI在维护任何精确内部状态方面的普遍局限。
对现实AI应用的启示
归根结底,这项研究揭示的问题对日常AI应用有何实际影响?
当前,AI被广泛用于代码审查、文档分析、多步骤规划、长对话助手等场景,这些任务都需要AI在较长时间内追踪约束条件、记住中间结果、保持前后一致性。而研究结果告诉我们,这种状态追踪能力在局部范围内可靠,但在超越某个边界后会突然、悄无声息地失效。更危险的是,失效后AI并不会声明“我不知道”,而是继续输出看似合理、却已脱离规则执行的内容。
正因如此,研究者认为,单纯扩大模型规模、增加训练数据、允许更多推理步骤,并不能从根本上解决此问题。要真正提升AI的程序可靠性,可能需要在架构层面进行革新,例如引入外部记忆(让AI能像程序员使用变量一样将中间结果存储于外部)、引入循环结构(使AI能够真正“迭代”而非仅从左到右处理一次)、或引入可验证的执行轨迹(允许检查AI是否真正按规则执行)。这些方向已有研究者探索,但尚未成为主流AI系统的标准配置。
这项研究最重要的贡献,在于提供了一个工具:通过极简的测试,直接测量AI在执行规则方面的真实边界,而非通过复杂任务的表现间接猜测。计数容量就像一个体温计,直接测量的是AI“体内”具体的生理指标,而非通过面色判断健康。一个AI在考试中得高分,不代表其“体温”正常;而体温计测出的数字,则是实实在在、无法作假的。
这对所有依赖AI处理长时间、多步骤任务的人是一个提醒:AI在短期任务中表现出色,但在需要长时间维护精确状态的任务中,存在一个看不见的断崖。了解这个断崖的位置,远比盲目相信AI能“记住一切”更为安全。
Q&A
Q1:大语言模型的“计数容量”是什么意思?
A:计数容量是指一个AI模型能够稳定、准确地数出序列中元素数量的最大值。当序列长度超过此值时,模型不会逐渐变差,而是突然崩溃,开始随机报出500、1000这类整数。研究发现,所有测试模型都有此上限,且远低于其官方宣传的文字处理量。
Q2:加强推理功能(思维链)能帮助AI数更多数字吗?
A:不能。研究对比了普通模型与推理增强版模型的计数表现,发现推理版本消耗了数倍甚至数十倍的计算资源,但计数容量几乎没有提升,有时甚至更差。这是因为计数失败的根本原因是内部状态耗尽,额外的计算无法补充此状态。
Q3:为什么传统AI测试发现不了这个数数失败的问题?
A:传统测试依赖知识问答、代码编写等复杂任务,这些任务的正确答案可通过记忆、模式匹配或语言直觉获得,不一定需要精确执行规则。研究发现,模型在知识测试上的高分与计数容量几乎无关,说明传统测试对程序性执行可靠性存在系统性盲点。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
DeepSeek终端助手发布 美国开发者打造命令行AI工具
最近在终端编程工具领域,有个项目挺有意思,叫 DeepSeek-TUI。简单来说,你可以把它看作是为 DeepSeek 模型量身打造的“终端版编程智能体”,类似于 Claude Code 或 GPT 的 Codex 这类工具,当然,这个类比只是为了方便理解。 这事儿起因还挺有趣。前两天在社交媒体上,
Claude AI梦境研究:人工智能的潜意识与进化
Claude开始“做梦”了。这听起来有点科幻,但确实是Anthropic为其Claude Managed Agents平台推出的最新功能——“Dreaming”。 就像人有时白天百思不得其解,睡一觉反而豁然开朗一样,现在AI也学会了这招。这项功能允许AI在工作间隙“睡觉”反思,进行记忆清理、规律总结
宇树人形机器人应用商店UniStore正式开放
今天,人形机器人领域迎来一个里程碑式进展。宇树科技正式宣布,其全球首创的人形机器人任务动作应用商店——UniStore官方共享应用平台,现已面向全球开发者与用户全面开放。 通俗地讲,UniStore平台相当于人形机器人的“专属应用商店”。开发者能够上传自主编写的机器人动作程序与任务模块,用户则可像在
Midjourney体积雾模拟教程 轻松营造氛围感画面
在Midjourney中创作具有真实空气感与空间深度的雾气效果时,你是否常遇到画面扁平或质感虚假的困扰?这通常源于提示词与参数组合不够精准——真正的体积雾效需要一套系统化的指令策略,而非简单添加“fog”一词。以下这套经过反复验证的实战方法,将引导你把“雾气”从一层单调的贴图,转化为真正弥漫于场景之
智能电池摄像头选购指南 灵活安装与安全监控全解析
如今,家庭安防的选择越来越丰富,其中,智能电池摄像头以其独特的灵活性和强大的安全性能,正成为许多用户的首选。它不再仅仅是“记录画面”,而是通过先进的目标检测算法,将主动预警和智能监控提升到了一个新高度。无论是实时记录动态,还是及时推送通知,都让安全防护变得更加主动和便捷。加上其免布线的安装特性和多样
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

