路特格斯大学研究发现巨大激活值产生机制

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

科技数码

路特格斯大学研究发现巨大激活值产生机制

热心网友时间：2026-05-20

转载

最近，一篇发表在ICML 2026上的研究，为大语言模型内部那个神秘的“黑盒子”打开了一道缝隙。这项由路特格斯大学、韦克福里斯特大学与Meta AI合作完成的工作，揭示了一个此前被忽视的普遍规律：在模型的深处，存在一个特定的“关键层”，在那里，某些“巨大激活值”会被瞬间点燃，并从此如影随形地主导后续

最近，一篇发表在ICML 2026上的研究，为大语言模型内部那个神秘的“黑盒子”打开了一道缝隙。这项由路特格斯大学、韦克福里斯特大学与Meta AI合作完成的工作，揭示了一个此前被忽视的普遍规律：在模型的深处，存在一个特定的“关键层”，在那里，某些“巨大激活值”会被瞬间点燃，并从此如影随形地主导后续的运算过程。

如果你用过ChatGPT或文心一言，就已经在享受大语言模型的便利。但你是否好奇过，当你输入一段话后，模型内部究竟发生了什么？这项研究试图回答的正是这个问题，而其发现远比预想的更有趣。

一、什么是“巨大激活值”，为什么我们要关心它

要理解这项研究，不妨先想象一条工厂流水线。你输入的文字是原材料，它从一端进入，经过模型数十甚至数百层“工序”的加工，最终在另一端输出回答。研究者发现，在这条流水线的某一站，有一台机器会突然把某个“零件”的规格放大几百甚至几千倍。这个被异常放大的零件，会一路跟随产品流转，深刻影响后续每一道工序。这个特殊的站点，被研究者命名为“巨大激活涌现层”（Massive Emergence Layer，简称ME Layer）。

更关键的是，这并非某个模型的个别怪癖。在Qwen3、LLaMA、Mistral、DeepSeek等多个主流模型家族中，都观测到了这一现象。它像是一条所有现代大模型共同遵循的“隐秘规律”。研究不仅发现了它，还弄清了它的成因、后果，并提出了一种简单有效的干预方法，在多项任务上持续提升了模型表现。

二、侦查现场：巨大激活值从哪一层冒出来的

那么，这个“游泳池”般的信息量，究竟是如何形成的？是慢慢积累，还是瞬间爆发？研究团队对Qwen3-4B模型进行了逐层测量，追踪每个词元信息量的变化趋势。

结果非常清晰：在绝大多数层，第一个词元的信息量与其他词元相差无几。然而，到了第7层，第一个词元的信息量突然急剧飙升，如同平静的河流突遇断崖，形成瀑布。此后，无论经过多少层，这个词元的信息量都维持在高位，几乎不再变动。

这说明，巨大激活值并非缓慢积累的结果，而是在某个特定层被“一次性点燃”的。这个层就是ME Layer。点燃之后，由于模型架构中存在的“残差连接”（一条让信息绕过当前层直接传递的旁路），这个巨大的激活值就被完整地“搬运”到了后续每一层，直至输出。

这一规律在测试的所有主流模型中都得到了印证。不同模型的ME Layer位置略有差异（例如Qwen3系列在第7层，Mistral和DeepSeek在第2层），但同一家族的模型位置往往相同。这种跨模型的一致性强烈暗示，背后存在与模型架构深度绑定的共同机制。

三、解剖“点火装置”：RMSNorm与FFN的联手作用

找到了“诞生地”，下一个问题自然是：在ME Layer内部，究竟是哪台“机器”引发了这场爆炸？通过逐一解析内部组件，研究团队锁定了两个关键角色：RMSNorm和FFN（前馈神经网络）。

RMSNorm是一种“归一化”操作，好比质量检验工序，负责将信息标准化。但它处理的方式并不均匀，会对不同“维度”施加不同的放大系数。研究发现，在ME Layer，RMSNorm对第一个词元的处理方式与众不同——使其信息高度集中在那些放大系数最大的维度上。

如果说RMSNorm是助燃剂，那么FFN才是真正的点火器。FFN是每层中负责深度变换的核心模块。在ME Layer，第一个词元经过FFN的三个子模块处理后，其信息量集中在极少数方向上的程度达到峰值。这三个子模块的放大效应协同作用，最终“点燃”了巨大激活值。

为了验证各自贡献，研究团队做了“拆除实验”：移除ME Layer的FFN后，巨大激活值虽短暂出现却无法持续；移除RMSNorm后，巨大激活值依然存在但幅度锐减。结论很明确：FFN是生成和维持巨大激活值的主力，而RMSNorm则是调控其规模的关键调节器，二者缺一不可。

四、“游泳池”的另一个秘密：方向固化与注意力僵化

弄清了诞生机制，下一个追问随之而来：这个被放大的“游泳池”在后续层中究竟在做什么？它携带的信息发生了什么变化？

通过对比不同输入内容下第一个词元的隐藏状态，研究团队发现了一个令人印象深刻的现象：无论输入的是数学题、常识问答还是开放式对话，这个词元在ME Layer之后的隐藏状态几乎保持不变。不仅是数值大小稳定，连信息的“方向”（即这组数字所指向的意义空间）也高度一致，几乎丧失了对输入内容的敏感性。

这导致了什么后果？在模型的自注意力机制中，每个词元会生成“查询”和“键”两种信号，通过计算匹配度来决定“关注”谁。由于这个特殊词元的隐藏状态方向固定，它生成的“键”也几乎固定。又因其数值规模巨大，任何其他词元的“查询”与它匹配都会得到异常高的分数。结果就是，模型会把大量注意力权重“倾倒”在这个词元上，无论它是否与当前任务相关。

这就是早已被观察到的“注意力沉降”现象——模型的注意力异常集中在序列开头的少数词元上。本研究的关键在于，它揭示了注意力沉降正是在ME Layer之后开始出现的，并且其权重矩阵与巨大激活值具有相同的“低秩”特性。这便将巨大激活值、方向固化、注意力沉降三个现象串联成了一条清晰的因果链：是巨大激活值导致了方向固化，方向固化又导致了注意力沉降。问题的根源被从注意力机制的数学特性，拉回到了更早的隐藏状态层面。

五、解法出炉：“权重引导维度遮蔽”如何给模型松绑

既然根源在于RMSNorm对某些维度的过度放大，那么一个直接的干预思路便是：能否在信息进入注意力模块前，适当压制那些被过度放大的维度，从而恢复信息方向的多样性？

基于此，研究团队提出了名为WeMask（权重引导遮蔽）的方法。具体做法是，在ME Layer之后的每一层，在隐藏状态进入注意力模块之前，先查看该层RMSNorm的放大系数，找出放大系数最大的那部分维度，然后将第一个词元（即巨大激活值所在词元）在这些维度上的数值直接清零。清零的比例由“遮蔽率”参数控制。

这个方法的精妙之处在于其精准性。它并非随机或粗暴地删除信息，而是专门针对那些被RMSNorm过度放大、导致方向固化的维度进行干预。对比实验证明，只有按照RMSNorm权重来选择遮蔽维度，才能在修复方向固化问题的同时，保留信息的有效结构。

在实际应用上，WeMask有两种模式：一种是“无需训练”的推理时干预，直接插入操作，不改变模型参数；另一种是与微调训练结合，让模型在更健康的表示空间中学习。针对不同任务类型（如知识泛化或精细数学推理），遮蔽操作应用的层数可以灵活调整。

六、实验成绩：从指令跟随到数学推理，效果普遍提升

为了验证WeMask的实际效果，研究团队在多个任务和模型上进行了系统测试。

在指令跟随类任务上，仅使用标准微调的基线模型在多个基准测试平均得分为64.43。加入无需训练的WeMask（遮蔽率0.1）后，平均分提升至64.91；与微调训练结合后，达到64.92。值得注意的是，当遮蔽率设置为1.0（完全遮蔽）时，模型性能大幅崩溃，这印证了“适度干预”而非“彻底消除”的理论判断。

在数学推理任务上，效果同样显著。在GSM8K（小学数学应用题）上，标准基线得分为20.26，而加入WeMask（遮蔽率0.7的训练方式）后提升至22.14。在更具挑战性的AIME竞赛题上，遮蔽率0.3的训练方式将分数从5.92提升至8.15。

在安全对齐任务上，标准微调常使模型过于保守。引入WeMask后，模型在XSTest上的表现从66.22提升至最高74.00，说明减少表示僵化有助于模型在安全性与帮助性间取得更好平衡。

此外，WeMask在强化学习训练范式（如DPO、GRPO）下同样有效，并展现出跨模型架构（如LLaMA 3.1-8B-Instruct）的通用性。与直接修改注意力机制以消除注意力沉降的方法相比，WeMask在微调后的表现普遍更优，这支持了“从隐藏状态层面入手比从注意力机制层面入手更有效”的判断。

七、注意力沉降的新解读：适度保留比彻底消除更明智

这项研究最后对注意力沉降现象提出了一种新的理解框架。传统观点常将其视为有害的病态行为，欲除之而后快。但实验结果表明，完全消除注意力沉降反而会损害模型性能，适度降低其主导程度则能带来提升。

研究团队认为，注意力沉降实际上是巨大激活值在注意力层面的投影。它携带的是一种稳定的“全局参考信号”，对模型计算具有功能价值，类似于一个共享的背景基准。问题不在于它的存在，而在于其隐藏状态方向过于僵化，导致这个基准信号无法随输入内容灵活调整。WeMask所做的，正是在保留这个全局参考信号的前提下，放松它的方向僵化程度，使其能与具体输入产生更多交互。

由此可见，更明智的策略或许不是“消灭”注意力沉降，而是“调节”它。这一认识对于未来大语言模型的设计具有重要参考价值——在追求灵活性的同时，也需要保留内部必要的结构性稳定。

说到底，这项研究最吸引人的地方，在于它用一个统一的故事，将几个看似孤立的现象串联成了一条清晰的因果链条。而弄清了这条链条，解决方案也随之浮现：无需修改复杂架构，无需额外计算资源，只需在隐藏状态进入注意力模块前，对特定维度进行精准而轻量的干预，就能在多项任务上带来稳定的性能改善。这恰恰说明，深刻理解问题本身，往往就蕴含了解决方案的一半。

当然，探索并未结束。研究者注意到，在模型的最后两层，第一个词元会再次出现巨大激活值，但其机制与中间层不同，尚待解释。此外，WeMask在大规模预训练阶段是否同样有效，也是一个开放的未来方向。

Q&A

Q1：大语言模型中的“巨大激活值”是什么意思？

A：可以把它理解为模型内部信息流中的一个异常信号。通常，模型处理每个词元时，其对应的数字表示规模是相近的。但“巨大激活值”指的是，在某一特定层，某个词元（通常是输入的第一个词元）的数字表示会突然暴增数百至数千倍，形成一个异常突出的信号，并持续影响后续所有层的计算。

Q2：WeMask方法是如何工作的，它会不会破坏模型原本的能力？

A：WeMask的工作原理是精准干预，而非破坏。它识别出模型中因RMSNorm操作而被过度放大的特定维度，并将巨大激活值所在词元在这些维度上的数值清零。实验表明，当遮蔽率控制在适度范围（如0.1-0.3）时，模型在多项任务上的表现普遍提升；只有当遮蔽过度（如达到1.0）时，性能才会下降。这证明了其“调节”而非“消除”的设计是有效的。

Q3：ME Layer在不同模型里是否都存在？

A：是的，这项研究在测试的多个主流大语言模型家族中都观测到了ME Layer的存在。不同模型的ME Layer出现位置可能不同（例如Qwen3系列在第7层，Mistral在第2层），但同一家族的模型位置通常一致。这强烈表明，巨大激活值的涌现是与当前主流Transformer模型架构深度相关的一种普遍现象，而非个别模型训练中的偶然产物。

来源:https://www.163.com/dy/article/KTAR69O20511DTVV.html

上一篇：摩尔线程为何坚持布局消费级AI显卡与家庭智能中枢

下一篇： Nous Research揭秘AI高效学习秘诀解决大模型训练成本难题