斯坦福大学揭秘AI数手指失败原因大模型为何无法准确计数

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

斯坦福大学揭秘AI数手指失败原因大模型为何无法准确计数

热心网友时间：2026-05-16

转载

这项由斯坦福大学电气工程系主导的研究，于2026年5月以预印本形式发表于arXiv（编号arXiv:2605.02028），揭示了一个看似简单却直指核心的问题。研究团队设计了一个出人意料的测试——让AI模型数数——结果暴露了当前大型语言模型在执行规则方面存在根本性局限。

斯坦福大学揭开AI

一个引人深思的现象是，那些能够撰写复杂代码、解答数学难题、分析长篇文档的AI助手，却可能在数数这项基础任务上彻底失败。这种失败并非渐进式的偏差，而是在某个临界点后突然崩溃，报出“500”或“1000”这样的整数，仿佛一个孩子数完手指后便开始胡乱猜测。这背后隐藏的，是关于AI能力本质的深刻疑问。

斯坦福的研究者观察到，AI在各种考试中表现日益出色，但这种“出色”究竟源于对规则的真实理解，还是仅仅模仿了规则的表象？为了探究真相，他们设计了一个极简测试：给AI一串重复的字母，让它数出个数。任务不涉及任何复杂知识或语义理解，只需重复执行“加一”操作。测试结果令人深思：所有参与测试的一百多个模型版本，都在某个数字上彻底崩溃，而这个崩溃点远低于模型官方宣称的文字处理能力上限。

为什么数数能揭露AI的真面目

要理解这项研究的价值，首先需要审视常规的AI测试是如何进行的。

通常，我们通过出题来评估AI：解数学题、写代码、回答科学问题。这些测试固然重要，但存在一个根本缺陷：答对题目，未必意味着AI真正“理解”了原理。它可能只是在训练数据中见过类似题目，记住了答案，或者凭借语言模式拼凑出一个看似合理的回答。这就好比判断一个学生是否掌握了物理，不能只看他是否背熟了例题答案。

研究者将这类测试称为“依赖知识的测试”。其问题在于，当AI接触过海量相关内容后，它完全可以“表演”出理解的样子，真假难辨。

与此相对，他们提出了“纯机械测试”的概念。这类测试规则极其简单，输入是人工合成的，不含任何需要记忆的知识或语义暗示，输出必须是精确数字。更重要的是，测试用例可以无限生成，杜绝了AI靠记忆答案蒙混过关的可能。数数，正是这种纯机械测试的完美范例。

数数的规则只有一条：“每遇到一个字母，计数加一”。输入是“a, a, a, a, a, ...”这样的无意义重复序列。AI需要做的，仅仅是从头到尾执行这条规则并报告结果。如果它能做到，说明它确实在执行规则；如果不能，那么它在其他复杂任务中表现出的“规则执行能力”，就值得重新审视了。

测试设计：一把步步升高的“梯子”

研究者将这套测试命名为“稳定计数能力”测试。其设计如同逐级升高的梯子：AI若能稳定数清某一长度范围的序列，就挑战更长的序列，直至其无法稳定给出正确答案。

具体而言，测试从约32个字母的序列开始。在这一档，研究者会随机生成16个长度略有波动（在32上下20%范围内）的序列让AI计数。如果AI在16次尝试中，每次答案与正确答案的偏差都在5%以内，则视为在该长度“稳定通过”，随后序列长度翻倍，继续测试。若AI在某个长度失败，则在其最后通过与最早失败的长度间精确搜索，找出其“数数极限”，即“计数容量”。

这个设计的巧妙之处在于，由于每次测试的序列长度随机波动，AI无法靠猜测“大概范围”来侥幸过关。即便崩溃后它随口报出“500”，也会因为正确答案可能是83或117而频繁出错，无法稳定通过任何一档。

为了全面评估，研究团队测试了超过126个不同的模型版本，涵盖OpenAI的GPT系列、Anthropic的Claude系列、Google的Gemini系列以及多个开源模型。整个测试的API花费约200美元，堪称一次高性价比的“能力体检”。

所有AI都有数数上限，且出乎意料地低

测试结果迫使人们重新思考对AI能力的认知。

所有被测试的模型，无一能无限地数下去。每个模型都有一个明确的“崩溃点”，超过此点，准确计数便不复存在。更令人意外的是，这个崩溃点远低于模型官方宣称的“上下文窗口”——即它们声称能处理的最大文字量。

举例来说，有些模型的上下文窗口号称能处理数十万甚至百万字符，但其计数容量可能只有几百甚至不足一百。这意味着，AI即便能“读到”序列中的每一个字母，也无法可靠地对它们逐一计数。处理长文本与在长文本中精确执行规则，是两件完全不同的事。

不同模型的表现差异显著。总体而言，较新的模型通常能数到更大的数字，但即便是最新、最强大的前沿模型，也都在远低于其宣传上下文长度的地方宣告失败。这就像一个自称能记住整本书内容的人，却无法数清第一章里有多少个逗号。

崩溃模式：非渐进偏离，而是突然坠崖

AI崩溃时的具体表现更耐人寻味。

如果AI使用的是某种近似估算方法，那么随着序列变长，其误差应逐渐增大，如同目测估算人群数量，人数越多偏差越大，但方向大致正确。然而事实恰恰相反：在崩溃点之前，AI的表现近乎完美；一旦超越临界点，其输出便如坠崖般跳转到完全离谱的数字。

研究者观察到，当AI失去计数能力后，并非随机猜测，而是倾向于输出一些“圆整”的数字，如500、1000、2000。这些数字在现实语境中常被用来指代“大量”。也就是说，当AI不知正确答案时，它会退回到“常识性的大数字猜测”模式，而非继续尝试遵循规则。

将所有模型的数据叠加分析后，这种“崩溃前完美、崩溃后乱猜”的模式具有普遍性。而且，崩溃后的错误答案在分布图上呈现出明显的水平条纹——大量答案聚集在500附近，另一批聚集在1000附近——这种分布不像随机误差，倒像是AI在查阅一个“常见大数字”的内部列表。

在所有测试中，有5%的尝试（9797次中有501次）甚至未能输出有效数字，而是返回了空白、重复输入、代码格式或莫名其妙的“推理过程”。这表明，一旦计数状态崩溃，连“回答一个数字”这类基本指令遵循能力也会受到波及。

符号与格式：微调即变的表现

研究者还进行了一项启发性的变体测试：改变序列中的字母或分隔符号。

原始测试使用小写字母“a”加逗号分隔。当尝试将字母更换为其他字母、数字、希腊字母、中文字符，或将逗号换为空格、竖线、分号时，许多模型的计数容量发生了显著变化，时好时坏，且这种变化与输入token数量（AI处理文本的基本单位）的变化并不完全吻合。

这一发现意味着什么？它说明AI的计数能力并非建立在抽象、通用的“计数规则”之上，而是与具体的符号、输入格式紧密绑定。不同的字母和标点会触发不同的内部处理路径，每条路径各有其容量上限。好比一个人数苹果能数到100，数梨子却只能到50——若真正理解“数数”的本质，换任何对象都应一样；但若只是靠记忆硬背“数苹果的方法”，换个对象就会彻底混乱。

资源共享：数数与复杂任务争夺同种有限资源

为了验证计数所用的内部资源是否与其他认知任务共享，研究者设计了一组“双任务干扰实验”。

实验方法是让AI同时完成两件事：一边数序列中某个字母的数量，一边回答一道来自真实基准测试的题目（可能是推理、编程、数学或知识题）。随后，比较这种“双任务”下的计数误差与单独计数时的误差。

结果非常清晰：当AI需要同时处理推理或编程任务时，其计数准确度大幅下降，误差远高于单独计数。相比之下，如果只是让AI阅读一段同等长度的无意义随机代码，对计数的干扰则小得多。更有趣的是，若让AI同时数两个不同字母的数量（一个更复杂的计数任务），其对计数准确度的干扰反而小于复杂推理任务。

这说明，干扰源于任务本身的复杂程度，而非仅仅是任务长度。推理和编程这类需要大量内部状态维护的任务，与数数竞争同一种有限资源，从而导致计数表现下降。换言之，AI的“工作记忆”是有限的，且为多种任务所共享。

窥探内部：AI“大脑”中发生了什么

以上均是从外部行为观察。研究者还进一步“打开”了一个开源模型，直接查看其内部运作。

他们选用的是权重公开的Gemma 3 27B-it模型。该模型行为与其他模型一致：数到27个字母前完全正确，之后突然崩溃，开始重复输出60、100等整数。

研究者首先进行了“残差流投影”分析。通俗讲，就是在AI处理数数任务时，于每一层神经网络输出处捕捉“快照”，试图从中读出当前的计数状态。结果发现，在模型成功计数阶段，确实存在一个线性方向，沿此方向投影出的数值随序列长度增加而线性增长，精确追踪着计数进度。这种线性结构在多个不同网络层（第16、31、40、53层）均能观察到。

然而，当序列长度超过计数容量时，这种线性结构突然消失，秩序被混乱取代。这意味着模型内部确实存在一种计数状态，但这种状态是有限的，一旦耗尽，便无法读取，模型也就失去了输出正确答案的依据。

研究者还进行了“强制解码”实验：给模型指定正确答案格式，仅让其判断“最可能的下一个token是什么”，观察即便给予提示，模型是否仍认为正确答案合理。结果发现，在成功计数范围内，模型坚信正确答案正确；但一旦超过计数容量，即便给予格式提示，模型也不再认为正确答案是最优选择，其“内心”更倾向于那些圆整的猜测数字。这说明失败并非输出层面的小问题，而是深层认知状态的真实崩溃。

此外，通过使用“稀疏自编码器”工具分析哪些神经元特征与计数最相关，研究者并未找到单一的“计数神经元”。与计数相关的特征是由多个非单调变化的特征共同组成的联合体。这表明AI的计数能力由众多神经元协同实现，是一种分布式、复杂的协作状态，而非像计算机那样由一个简单计数器完成。

“激活补丁”实验：验证因果关系

仅观察还不够。研究者进行了一系列“手术实验”，直接修改AI内部激活状态，以验证这些状态与输出之间是否存在真正的因果关系。

实验逻辑如下：从一个正在数不同数量字母的“捐献者”模型中，提取某一层的神经激活状态，然后将其移植到另一个正在数不同数量字母的“接受者”模型中，观察接受者的输出是否会相应改变。这好比将一个人数到15时的大脑状态，移植到另一个数到10的人脑中，看他最终报出15还是10。

研究者尝试了两种移植方式：一是仅替换最后一个处理单元的状态（相当于在即将说出答案时换上别人的“记忆”）；二是替换整个序列处理过程中的所有状态（相当于从头到尾采用别人的“处理方式”）。

结果发现，两种方式均能在一定程度上改变模型输出，但效果在不同网络层差异显著。仅替换最后状态的方式，只在非常靠后的网络层（第51层，共62层）才有效果。替换整个序列的方式，在中间层（第31层）就能产生强烈影响，且效果远强于仅替换最后状态。

这两个发现共同描绘出AI内部计数的“流程”：模型先在中间层的处理过程中，逐字母地建立起追踪序列进度的状态轨迹；然后在靠近输出的晚期层，将此轨迹信息汇聚到最后一个处理位置，并从中解码出最终数字答案。一旦中间层的轨迹无法建立（因超过容量），晚期层便无可用信息，自然无法给出正确答案。

这一机制在另一个完全不同架构的模型（Qwen 3.5 35B，一种混合专家模型）上也得到了类似验证，表明这并非某个特定模型的独特缺陷，而是当前一代AI架构的普遍特征。

与传统测试的对比：揭示系统性盲点

确认计数容量能揭示AI内部状态的真实情况后，研究者将其与三个主流AI评测基准进行了比较：专注知识问答的GPQA Diamond测试、专注代码能力的SWE-bench测试，以及专注抽象推理的ARC-AGI-2测试。

在知识和代码测试方面，AI在这些传统测试上的得分与计数容量之间的相关性相当弱。简言之，一个在知识问答上表现优异的AI，未必有更高的计数容量；反之亦然。这说明传统测试与机械执行能力衡量的是不同的维度，各有盲点。

与ARC-AGI-2的对比则更为耐人寻味。ARC-AGI-2是一个旨在减少知识依赖、强调抽象推理的测试，被认为更接近“测试真正智能”。然而研究者发现，在ARC-AGI-2公开发布之前训练的模型，在该测试上普遍得分很低，但它们的计数容量却各不相同，分布分散，两者无明显关联。而在ARC-AGI-2发布之后训练的新模型，得分普遍大幅提升，且得分与计数容量之间呈现出很强的线性相关。

这一现象揭示了一个深层问题：新模型在ARC-AGI-2上得分更高，未必是因为推理能力真正提升，更可能是因为它们在训练时接触到了该测试的任务格式，从而“学会”了如何应对这类题目。一旦掌握了任务格式，它们在ARC-AGI-2上的表现就变成了计数容量的函数——也就是说，至此，限制其表现的瓶颈才是真正的机械执行能力，而非“是否理解题目”。这与ARC-AGI-3明确声明要防止测试数据泄露的初衷不谋而合。

不止于数数：更复杂的规则追踪同样受限

或许有人会想：AI可能只是不擅长数重复字母这种单调任务，换成稍有结构的任务会否好转？

研究者也对此进行了测试，设计了一个“层级规则追踪”任务：给AI看一系列结构化记录，每条记录包含一个关键词和一条嵌套路径（路径中用交替括号嵌套不同层次信息），以及一堆无关干扰词。AI需要判断每条记录中，关键词是否与路径最深层的词匹配，然后统计所有匹配的数量。

此任务比单纯数字母复杂得多，需要维护更丰富的内部状态（需追踪嵌套层级），但本质仍是“执行简单规则，维护计数状态”。结果，即便是表现最好的模型，也仅在416个正确匹配内保持稳定，超过此数同样突然崩溃。这表明，计数容量的限制并非只针对“数重复字母”这类单调任务，而是反映了AI在维护任何精确内部状态方面的普遍局限。

对现实AI应用的启示

归根结底，这项研究揭示的问题对日常AI应用有何实际影响？

当前，AI被广泛用于代码审查、文档分析、多步骤规划、长对话助手等场景，这些任务都需要AI在较长时间内追踪约束条件、记住中间结果、保持前后一致性。而研究结果告诉我们，这种状态追踪能力在局部范围内可靠，但在超越某个边界后会突然、悄无声息地失效。更危险的是，失效后AI并不会声明“我不知道”，而是继续输出看似合理、却已脱离规则执行的内容。

正因如此，研究者认为，单纯扩大模型规模、增加训练数据、允许更多推理步骤，并不能从根本上解决此问题。要真正提升AI的程序可靠性，可能需要在架构层面进行革新，例如引入外部记忆（让AI能像程序员使用变量一样将中间结果存储于外部）、引入循环结构（使AI能够真正“迭代”而非仅从左到右处理一次）、或引入可验证的执行轨迹（允许检查AI是否真正按规则执行）。这些方向已有研究者探索，但尚未成为主流AI系统的标准配置。

这项研究最重要的贡献，在于提供了一个工具：通过极简的测试，直接测量AI在执行规则方面的真实边界，而非通过复杂任务的表现间接猜测。计数容量就像一个体温计，直接测量的是AI“体内”具体的生理指标，而非通过面色判断健康。一个AI在考试中得高分，不代表其“体温”正常；而体温计测出的数字，则是实实在在、无法作假的。

这对所有依赖AI处理长时间、多步骤任务的人是一个提醒：AI在短期任务中表现出色，但在需要长时间维护精确状态的任务中，存在一个看不见的断崖。了解这个断崖的位置，远比盲目相信AI能“记住一切”更为安全。