Anthropic AI 揭示大模型注意力回路机制

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

Anthropic AI 揭示大模型注意力回路机制

热心网友时间：2026-05-16

转载

最近，Anthropic公司发布了一项挺有意思的研究，他们用一种新方法，把大语言模型内部那种“黑箱”计算过程，给画成了一张张能看懂的“地图”。这就像给AI做了一次脑部CT扫描，让我们能直观地看到，当模型回答“迈克尔·乔丹从事什么运动？”时，它脑子里的“神经元”是怎么一步步点亮“篮球”这个答案的。

简单来说，模型处理这个问题时，信息走了三条主要通路：一是从“从事”和“运动”这些词本身出发，激活了“输出运动项目”的倾向；二是从“迈克尔·乔丹”这个名字关联的“名人”特征出发，这个特征会正向推动“篮球”，同时抑制“足球”等其他选项；三是还有一些特征组直接建立了到“篮球”的快速通道。最终，这三股力量合流，让模型稳稳地填上了“basketball”。

这项成果的核心，在于他们提出了一套两步走的“解码”方法论：第一步，找到模型内部那些可解释的基本计算单元——也就是“特征”；第二步，弄清楚这些特征之间是如何通过特定的“回路”相互作用，最终产生输出的。这与此前试图直接分析原始神经元的研究思路不同，Anthropic选择先构建一个更“透明”的“替换模型”。

一、建立可解释的替换模型

为什么非要绕个弯子，先搞个“替换模型”呢？这得从深度学习模型的老大难问题说起。传统的神经网络由海量人工神经元构成，但一个尴尬的事实是：模型需要表达的概念数量，往往远超其神经元数量。这就导致单个神经元常常“身兼数职”，同时表征多个不相关的概念，变得难以解读。直接用它们作为分析基础，就像试图通过观察一团乱麻来理解织布机的结构，困难重重。

Anthropic的“替换模型”核心是一种叫“跨层转码器”（Cross-Layer Transcoder, CLT）的架构。你可以把它想象成给原模型的每一层“思维”都配了一个翻译官。这些翻译官（即CLT特征）用稀疏激活的方式，专门负责重建原模型对应层的输出。关键是，这些特征能从早期层接收信息，却能向所有后续层传递信息，实现了真正的“跨层”沟通。

评估显示，这种CLT模型在重现原模型输出方面表现不错，尤其随着模型规模增大，匹配度更高。但问题来了，即便替换模型有时能复现结果，误差仍然存在，而且可能层层累积。为了精准分析某个特定问题（例如一个具体的提示词），研究人员又构建了更精确的“局部替换模型”。

这个局部模型可以看作一个针对单一提示展开的巨型神经网络，其神经元就是该提示下所有活跃的CLT特征。在这个网络上，可以进行经典的“电路分析”，追踪信息从输入到输出的每一条路径。它成为了后续绘制“归因图”的坚实基础。

二、构建归因图

有了局部替换模型，怎么把它变成我们能看懂的图呢？Anthropic以让模型为一个虚构机构“国家数字分析小组”（The National Digital Analytics Group）生成首字母缩写为例，展示了全过程。

向模型输入“The National Digital Analytics Group (N”后，模型输出了“DAG”。归因图清晰地揭示了这个“DAG”是怎么来的：图中有三条主要路径，分别源于“Digital”、“Analytics”、“Group”这三个词。每条路径都从识别该单词的特征开始，进而激活“在正确位置说出该单词首字母”的特征，最终这些特征共同推动模型输出“DAG”。

当然，图也显示了一些有趣的现象。比如，模型需要先“决定”输出一个缩写，并考虑到提示中已经给出了“N”。图中可以看到“在缩写中”和“在缩写开头的N”等特征确实在起作用，而“National”一词本身对输出的直接影响却很微弱。研究人员推测，它的主要作用可能是通过影响模型的“注意力”分配来实现的，而当前的归因图方法暂时还无法解释注意力机制内部的运作。

构建出的原始归因图信息量极大，包含数百万条边。为此，研究团队开发了交互式可视化工具，并采用剪枝算法聚焦关键路径。通常，在将节点数量减少90%后，仍然能保留80%以上的解释力，这让分析变得可行。

特征理解与标注

面对图中成千上万个特征，如何理解它们？团队采用了与之前“规模化单义性”研究类似的方法，对特征进行人工标注。

最容易标注的是两类特征：输入特征（常在浅层，对特定词汇或类别反应强烈）和输出特征（常在深层，直接促进或抑制某些词元的生成）。中间层的特征则更为抽象，需要结合它活跃的上下文、它对哪些词有直接促进/抑制效果，以及它与其他特征的连接关系来综合推断。

即使标注做不到完美，这些特征标签已经能有效揭示归因图中的核心结构。为了简化视图，研究人员还将功能相似的特征组合成“超节点”。例如，所有与“Digital”这个词相关的不同特征，在分析缩写任务时，可以视为一个整体单元。

通过干预措施验证归因图假设

图画出来了，怎么知道它是不是对的？Anthropic采用了“干预实验”来验证：如果我们在原模型中，人为抑制归因图中某个被认为很重要的特征，那么模型对应的输出是否会被削弱？实验证实了这一点。例如，抑制“Digital”或“Analytics”相关的特征，会显著降低模型输出“DAG”的概率。

归因图还能帮助定位关键层。比如，在加法任务“36+59=？”中，分析发现“Analytics”特征主要通过第13层及之后的中间特征间接影响最终输出。干预实验也显示，如果在第13层之前抑制这些特征，效果最明显，这和图的分析吻合。

三、全局权重

归因图展示的是特定提示下的局部互动。那么，特征之间是否存在一种全局的、与上下文无关的固有联系呢？这就引出了“虚拟权重”的概念。

理想情况下，我们希望得到一组全局权重，能刻画特征在所有可能上下文中的平均互动强度。但这里有个大的麻烦：干扰。由于数百万个特征都通过残差流连接，即使两个特征从未在真实数据中同时激活，它们之间也可能计算出一个很大的虚拟权重，但这其实对网络的实际功能毫无影响。

为了解决干扰问题，研究人员引入了特征共激活的统计信息，计算了“目标加权预期残差归因”（TWERA）。这相当于在平均互动强度时，更多地考虑那些在数据中实际经常一起出现的特征对。经过这样处理，许多无意义的干扰连接被过滤掉了，留下更多可解释的关联（例如，与“说出运动名称”相关的特征和“极限飞盘”特征之间的强关联）。

当然，TWERA也不是万能药，它同样存在局限，比如对抑制性关系的处理不够好。但它确实提供了一个比单张归因图更广阔的视角，让我们能看到特征在更广泛背景下的行为模式。