纽约大学研究揭示AI大模型如何记忆知识
这项由纽约大学与弗拉托恩研究所联合开展的研究,于2026年5月以预印本形式发布,论文编号为arXiv:2605.12426。

向ChatGPT提问“爱因斯坦的出生地”或“哈利·波特的作者是谁”,它总能对答如流。这看似理所当然,但背后其实藏着一个长期悬而未决的谜题:这些海量的事实知识,究竟是以何种形态被“塞”进模型参数里的?
过去的主流观点,倾向于将模型记忆比作一本巨大的电话本——每条知识对应一组特定的参数权重,查询时依靠“模式匹配”来定位。这个思路直观,但意味着知识存储是“加法”的:想多记一条,就得额外占用一份空间。知识越多,模型就越臃肿。好比每认识一位新朋友,就得在书架上专门腾出一个格子存放他的档案。
然而,这篇论文揭示的真相要巧妙得多。研究团队发现,当模型被允许自主学习词汇的表示方式时,它会采用一种高度几何化的压缩策略——将多条相关知识叠加编码进同一个向量空间。这就像把多张透明的胶片叠放在一起,每张胶片记录不同的信息,但整体厚度却只有一张。负责“读取”的MLP模块则扮演智能滤镜的角色,能根据当前问题,从这叠“胶片”中精准抽取出对应那一层的信息。
一、记忆的两种哲学:电话本还是叠影
理解这项研究,不妨先建立一个核心比喻:将大语言模型的记忆系统想象成一座图书馆。
传统认知下的图书馆,每个人物拥有一个独立的档案柜,柜内分门别类存放其出生地、职业等所有信息。查询时,先找到对应人物的柜子,再翻出所需栏目。这种方式清晰,但代价是图书馆的规模必须与档案数量同步线性增长。
研究团队提出的几何记忆方式则截然不同。这里没有独立的档案柜,取而代之的是一面巨大的“叠影投影墙”。每个人的全部信息——出生地、职业、语言等——被编码成一组以特定角度叠加在一起的光影,共同投射在同一面墙上。当你想查询某人的出生地时,图书馆的“筛选器”(即MLP模块)会使用一块特制的滤镜,滤除所有无关光影,只让与“出生地”对应的那一道光透射出来,呈现答案。
这一思路的惊人之处在于,它模糊了“存储”与“计算”的界限。知识并非静态存放于某个固定地址,而是以几何叠加的结构存在于向量空间中,由一个通用的筛选机制动态提取。这意味着,存储一千个人的信息,所需空间的增长远低于十倍——只要叠加编码足够聪明,维度的增长可以压缩到对数级别。
二、实验的舞台:一个干净的玩具世界
为了将猜想转化为可严格证明的结论,研究团队构建了一个极度简化但保留核心矛盾的“玩具实验场景”。他们没有在GPT或Llama这类复杂模型上直接实验,而是搭建了一个可控的设置。
场景设定如下:存在N个“主体”(可理解为人物)和R种“关系”(如出生地、职业等)。每种关系都将每个主体映射到一个“属性”上,且所有关系共享同一个属性池。关键约束在于,每种关系都是双射——即每个属性只对应一个主体。这比假设每种关系拥有独立属性集要困难得多,因为模型无法凭借属性本身来判断它属于哪种关系。
在此场景下训练一个单层Transformer,其任务是在给定主体名称和关系类型后,正确预测对应的属性。这就像一场填空测试:题目是“张三的出生地是?”,模型需从N个可能地名中选出正确答案。
核心问题随之浮现:模型需要多大的向量维度,才能完美记住所有N×R条知识?
三、数学的结论:对数维度就够了
这是整篇论文的理论核心。所谓“维度”,可理解为每个词汇被表示成一串多长的数字。维度越大,表达能力越强,参数消耗也越多。
传统的关联记忆方法,所需维度大约与主体数量N成正比。而论文的核心定理(定理4.1)证明:如果允许模型自主学习嵌入向量,那么所需维度d大约仅为 4R × log₂(N) + 1。其中log₂(N)是以2为底N的对数。
对数的增长极其缓慢。如果N是4096,log₂(N)等于12;即便N增加到一百万,log₂(N)也不过20。这意味着,需要记忆的主体数量翻数百倍,所需维度的增加却微乎其微。这是一个质的差异。
那么,压缩是如何实现的?答案在于“叠加编码”:每个主体的向量,实际上是其在所有R种关系下的R个属性向量的线性叠加。好比将一首歌的旋律、节奏、歌词信息同时压缩进一段声波。随后,MLP模块承担提取工作:当被问及某主体在特定关系下的属性时,注意力机制先将主体向量与关系信息合并,再由MLP通过ReLU激活函数,精准地从叠加信号中抽取出对应关系的那一层,同时屏蔽其他R-1种关系的干扰。重要的是,这个MLP的宽度仅需与R成正比,与N无关,说明它是一个通用的筛选器,而非存储了所有具体知识的记忆库。
四、梯度下降能找到这个解吗?实验给出的答案
理论构造固然优美,但梯度下降训练真能找到这个解吗?这是理论与实际系统的关键桥梁。
研究团队进行了系统性实验。他们固定N=4096,让关系数R在2到16之间变化,向量维度d在32到768之间变化,测试了大量参数组合。
第一个发现是:当维度d达到128或以上时,模型几乎总能完美记忆所有知识,准确率100%。相比之下,若将嵌入向量冻结为随机初始化(模拟传统关联记忆),则需要大得多的维度(如R=16时需d≥512)才能达到相同精度。
更进一步,他们测量了在不同N下,模型达到95%准确率所需的最小维度d。对于可学习嵌入,最小维度随N的增长完美符合对数曲线;而对于随机嵌入,则呈现线性增长。两条曲线的对比,直观展示了几何记忆的效率优势。
五、叠影结构真的存在吗?三种验证方式
模型能跑通还不够,内部结构是否真如理论预测?研究团队设计了三种互补的实验进行验证。
第一种是“线性读出”测试。 为每种关系单独训练一个线性变换矩阵,尝试直接从主体嵌入向量中解码出对应属性。结果支持了预测:在维度足够时,所有关系的线性解码准确率都接近100%,表明主体向量中确实线性叠加了所有关系的属性信息。而使用随机固定嵌入的模型,解码准确率与随机猜测无异。
第二种是“因果干预”测试。 思路是:如果MLP是关系选择器,那么仅修改主体向量中某种关系对应的分量,应只影响对该关系的预测,而不影响其他。实验通过构造精准扰动,计算“选择性”分数。在维度足够时,该分数接近1,证实了MLP能进行关系特异性的精准筛选。
第三种,也是最令人印象深刻的“MLP冻结迁移”测试。 流程是:先用一组随机双射训练模型至收敛,然后完全冻结MLP的参数。接着,换上一组全新的随机双射,并仅通过线性代数方法重新初始化主体嵌入向量(使其成为新属性向量的叠加)。最后,直接测试冻结MLP的模型在新双射上的准确率。结果:在维度足够时,零样本准确率接近100%。这强有力地证明,MLP学到的是一套通用的筛选机制,而非具体的知识映射。
六、多跳推理:当你问“X的妻子的母亲是谁”
上述实验针对单步查询。但现实问题常涉及多跳推理,例如“这本书作者的出生地在哪?”。研究团队深入探讨了其中的容量瓶颈。
直觉上多跳推理更难,但难在何处?论文定理4.2从信息论角度给出了精确答案。该定理通过计数分析揭示,模型的参数比特数W与嵌入维度比特数D之间必须满足特定不等式,并由此划分出三种情形:
当嵌入维度D非常小时,权重矩阵必须承担海量存储,参数需求巨大;当D足够大时,嵌入空间足以容纳完整的推理树,权重负担减轻,但维度需求随跳数指数增长;两者之间存在连续的权衡。
为验证该下界是紧的(即存在能达到此效率的构造),团队给出了两种明确的多跳Transformer构造方案:一是“键值记忆型”,将嵌入维度压缩至对数级,但MLP宽度需与N×R成正比(相当于内置大查找表);二是“嵌入预计算型”,将整个k跳推理树预编码进嵌入,使维度达到R^k乘以对数级。这两种方案恰好对应了下界的两个极端。
七、思维链:一个优雅的解法
面对多跳推理的维度瓶颈,一个自然的解决方案是:让模型一步步推,把中间结果写出来。这正是“思维链”(Chain-of-Thought, CoT)的核心思想。
论文定理4.4给出了明确的理论解释:当模型被允许先生成中间步骤时,仅需一个单层Transformer,嵌入维度约为R×log(N),MLP宽度约为R×log(N),即可解决任意跳数的推理问题。与不用思维链的方案相比,这是质的飞跃——嵌入维度从R^k级别降回对数级别,层数从k层降至1层,代价仅是增加了生成中间步骤的时间。
其逻辑十分优雅:思维链的本质是将连续的“隐式计算”转换为“显式中间状态”。每输出一个中间答案,模型就通过查询词汇表重新获取该实体的完整嵌入,作为下一步推理的起点。这相当于每次推理后都重置了状态,无需在单一隐向量中维持指数级的信息。实验结果印证了这一点:使用思维链的模型,即使在k=4跳、R=16的高难度配置下也能保持近乎完美的准确率;而不使用思维链的模型,在k=2时准确率已开始显著下降。
八、真实大模型里的线性结构
理论和玩具实验支持了几何记忆的图景,但真实的大模型(如Llama、Qwen、Phi)中是否存在类似结构?研究团队进行了探索性验证。
他们构建了一个包含4610个实体、42种关系的测试集,覆盖人物、公司等六大类别。通过在Qwen2.5-0.5B、Llama-3.1-8B等五个模型上训练低秩线性探针,尝试从不同层的隐向量中预测答案。
结果呈现出一致模式:线性探针的命中率远高于随机猜测。更有趣的是各层的动态变化:探针效果随网络深度加深而持续提升,在深度50%到80%处达到峰值,之后趋于平稳。这与“层层丰富化”的预测吻合——模型在前向传播中,逐渐将隐向量加工成更易于线性解码的结构。
此外,若用单层词嵌入模型记忆相同语料,线性读出的准确率(71%)甚至高于多层预训练模型,这进一步验证了“主体嵌入直接编码属性信息”的理论预测。
九、与以往观点的对比和理论的精确位置
这项研究建立在与既有理论的对话之上。以往有影响力的框架(如Bietti等人,2023;Nichani等人,2025)将Transformer的知识存储理解为联想记忆,其参数需求与知识条数成正比。
本文的定理4.1回答了其中一个未解问题:如果嵌入向量可学习,最小维度能降到多少?答案是O(R×log(N)),远低于线性。需要注意的是,这里比较的是“最小所需嵌入维度”,而非“模型总参数量”。同时,研究团队也坦率指出了理论的局限:其分析针对单层Transformer和完全随机的双射关系,而真实模型层数众多,真实知识具有丰富的语义结构。因此,理论发现需谨慎外推。
归根结底,这项研究的价值在于:在一个干净可控的场景中,严格证明了一种更高效的记忆机制的存在,并通过实验表明梯度下降能自发发现该机制,同时在真实模型上找到了与之相符的线性结构痕迹。它为“关系知识以线性方式编码”这一已被多次观察到的现象,提供了坚实的理论基础。
这一框架深化了我们对知识在模型中形态的理解,未来或可为设计更高效的知识编辑方法、理解模型在多跳推理上的差异,以及阐明思维链为何有效,提供有价值的启示。
Q&A
Q1:大语言模型的“几何记忆”和传统“关联记忆”有什么具体区别?
A:传统关联记忆将每条知识编码为权重矩阵中的一个键值对,参数量与知识条数成正比。几何记忆则让每个词的嵌入向量同时叠加编码多条相关知识,MLP仅作为通用筛选器根据当前关系抽取信息。理论上,存储N个主体在R种关系下的全部知识,几何记忆所需的嵌入维度仅约为4R×log₂(N),比传统方式节省大量空间。
Q2:思维链为什么能帮助大模型进行多跳推理?
A:不使用思维链时,模型需在一次前向传播中将所有中间状态压缩进隐向量,所需嵌入维度随跳数指数级增长。使用思维链后,模型每步都将中间结果实际输出,并通过查询词汇表重新获取该实体的嵌入,相当于每步推理都重置了状态。这样,无论推理多少跳,每步只需存储一跳的信息量,嵌入维度需求不再随跳数增长。
Q3:梯度下降训练出的模型真的会形成叠加嵌入结构吗?
A:论文通过三种实验验证了这一点。首先,线性回归能从主体嵌入中高精度读出各关系属性,证明叠加结构存在。其次,因果干预实验显示,修改特定关系分量仅影响对应预测,表明MLP能精准筛选。最关键的是,MLP冻结迁移实验证明,冻结的MLP在全新的知识映射上仍能保持高准确率,说明它学到的是通用筛选机制,而非具体知识。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
GD32单片机IAP升级教程实现Bootloader与应用程序跳转
在GD32嵌入式开发中,实现IAP升级需将内部Flash分区,分别为Bootloader和应用程序分配独立地址。Keil工程需相应配置ROM起始地址与大小。代码层面,Bootloader通过检查栈指针合法性并设置主栈指针后跳转至App入口地址;应用程序可通过软件复位请求返回Bootloader,并需重设中断向量表偏移量以匹配其存储位置。
腾讯吐司App三分钟教你零基础开发应用
你是否也曾有过这样的瞬间——脑海中闪过一个绝佳的App创意,却因为不懂编程,只能眼睁睁看着灵感消散? 最近,腾讯悄然上线了一款名为“吐司”的产品,似乎正是为了解决这个问题而来。 它的定位非常直白:“应用生成及灵感共创平台”。说得更通俗些,就是你动动嘴描述,AI来帮你写代码、做界面,最后打包成一个可安
出海产品运营必备Lucius高效协作指南
对于许多出海团队而言,下面这个场景恐怕并不陌生。 凌晨两点,东八区一片寂静。产品的Discord社区里,一条新消息弹了出来: “Anyone here? Been trying for an hour, the export keeps failing Is this product even m
智能体时代的高效办公方法与实用指南
最开始以为,只是一次,不会怎么样 现在,已经回不去了。 还记得第一次让Agent处理合同时,心里想着“就试这一次”。然后是邮件,接着是各种材料,再到活动复盘。如今,一小时处理几十份文档,手都不会抖一下。过去一天的工作量,现在只能算热身,处理总量翻了十倍还觉得不够。最可怕的是,已经完全不记得从前
AI内容创作方法论三年实战经验分享
上周在公司内部做了一场分享,在白板前边画边讲,聊了将近两个小时。主题是关于内容创作的方法论,以及在AI时代,我们该如何做好内容。这些思考源于过去几年的实战踩坑,从零做到近百万粉丝,经历了无数爆款与扑街稿件的洗礼。既然这些经验对团队有用,或许对行业里的其他同行也能有些参考价值。于是决定整理出来,与大家
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

