Anthropic AI 揭示大模型注意力回路机制
最近,Anthropic公司发布了一项挺有意思的研究,他们用一种新方法,把大语言模型内部那种“黑箱”计算过程,给画成了一张张能看懂的“地图”。这就像给AI做了一次脑部CT扫描,让我们能直观地看到,当模型回答“迈克尔·乔丹从事什么运动?”时,它脑子里的“神经元”是怎么一步步点亮“篮球”这个答案的。
简单来说,模型处理这个问题时,信息走了三条主要通路:一是从“从事”和“运动”这些词本身出发,激活了“输出运动项目”的倾向;二是从“迈克尔·乔丹”这个名字关联的“名人”特征出发,这个特征会正向推动“篮球”,同时抑制“足球”等其他选项;三是还有一些特征组直接建立了到“篮球”的快速通道。最终,这三股力量合流,让模型稳稳地填上了“basketball”。
这项成果的核心,在于他们提出了一套两步走的“解码”方法论:第一步,找到模型内部那些可解释的基本计算单元——也就是“特征”;第二步,弄清楚这些特征之间是如何通过特定的“回路”相互作用,最终产生输出的。 这与此前试图直接分析原始神经元的研究思路不同,Anthropic选择先构建一个更“透明”的“替换模型”。
一、建立可解释的替换模型
为什么非要绕个弯子,先搞个“替换模型”呢?这得从深度学习模型的老大难问题说起。传统的神经网络由海量人工神经元构成,但一个尴尬的事实是:模型需要表达的概念数量,往往远超其神经元数量。这就导致单个神经元常常“身兼数职”,同时表征多个不相关的概念,变得难以解读。直接用它们作为分析基础,就像试图通过观察一团乱麻来理解织布机的结构,困难重重。
Anthropic的“替换模型”核心是一种叫“跨层转码器”(Cross-Layer Transcoder, CLT)的架构。你可以把它想象成给原模型的每一层“思维”都配了一个翻译官。这些翻译官(即CLT特征)用稀疏激活的方式,专门负责重建原模型对应层的输出。关键是,这些特征能从早期层接收信息,却能向所有后续层传递信息,实现了真正的“跨层”沟通。
评估显示,这种CLT模型在重现原模型输出方面表现不错,尤其随着模型规模增大,匹配度更高。但问题来了,即便替换模型有时能复现结果,误差仍然存在,而且可能层层累积。为了精准分析某个特定问题(例如一个具体的提示词),研究人员又构建了更精确的“局部替换模型”。
这个局部模型可以看作一个针对单一提示展开的巨型神经网络,其神经元就是该提示下所有活跃的CLT特征。在这个网络上,可以进行经典的“电路分析”,追踪信息从输入到输出的每一条路径。它成为了后续绘制“归因图”的坚实基础。
二、构建归因图
有了局部替换模型,怎么把它变成我们能看懂的图呢?Anthropic以让模型为一个虚构机构“国家数字分析小组”(The National Digital Analytics Group)生成首字母缩写为例,展示了全过程。
向模型输入“The National Digital Analytics Group (N”后,模型输出了“DAG”。归因图清晰地揭示了这个“DAG”是怎么来的:图中有三条主要路径,分别源于“Digital”、“Analytics”、“Group”这三个词。每条路径都从识别该单词的特征开始,进而激活“在正确位置说出该单词首字母”的特征,最终这些特征共同推动模型输出“DAG”。
当然,图也显示了一些有趣的现象。比如,模型需要先“决定”输出一个缩写,并考虑到提示中已经给出了“N”。图中可以看到“在缩写中”和“在缩写开头的N”等特征确实在起作用,而“National”一词本身对输出的直接影响却很微弱。研究人员推测,它的主要作用可能是通过影响模型的“注意力”分配来实现的,而当前的归因图方法暂时还无法解释注意力机制内部的运作。
构建出的原始归因图信息量极大,包含数百万条边。为此,研究团队开发了交互式可视化工具,并采用剪枝算法聚焦关键路径。通常,在将节点数量减少90%后,仍然能保留80%以上的解释力,这让分析变得可行。
特征理解与标注
面对图中成千上万个特征,如何理解它们?团队采用了与之前“规模化单义性”研究类似的方法,对特征进行人工标注。
最容易标注的是两类特征:输入特征(常在浅层,对特定词汇或类别反应强烈)和输出特征(常在深层,直接促进或抑制某些词元的生成)。中间层的特征则更为抽象,需要结合它活跃的上下文、它对哪些词有直接促进/抑制效果,以及它与其他特征的连接关系来综合推断。
即使标注做不到完美,这些特征标签已经能有效揭示归因图中的核心结构。为了简化视图,研究人员还将功能相似的特征组合成“超节点”。例如,所有与“Digital”这个词相关的不同特征,在分析缩写任务时,可以视为一个整体单元。
通过干预措施验证归因图假设
图画出来了,怎么知道它是不是对的?Anthropic采用了“干预实验”来验证:如果我们在原模型中,人为抑制归因图中某个被认为很重要的特征,那么模型对应的输出是否会被削弱?实验证实了这一点。例如,抑制“Digital”或“Analytics”相关的特征,会显著降低模型输出“DAG”的概率。
归因图还能帮助定位关键层。比如,在加法任务“36+59=?”中,分析发现“Analytics”特征主要通过第13层及之后的中间特征间接影响最终输出。干预实验也显示,如果在第13层之前抑制这些特征,效果最明显,这和图的分析吻合。
三、全局权重
归因图展示的是特定提示下的局部互动。那么,特征之间是否存在一种全局的、与上下文无关的固有联系呢?这就引出了“虚拟权重”的概念。
理想情况下,我们希望得到一组全局权重,能刻画特征在所有可能上下文中的平均互动强度。但这里有个大的麻烦:干扰。由于数百万个特征都通过残差流连接,即使两个特征从未在真实数据中同时激活,它们之间也可能计算出一个很大的虚拟权重,但这其实对网络的实际功能毫无影响。
为了解决干扰问题,研究人员引入了特征共激活的统计信息,计算了“目标加权预期残差归因”(TWERA)。这相当于在平均互动强度时,更多地考虑那些在数据中实际经常一起出现的特征对。经过这样处理,许多无意义的干扰连接被过滤掉了,留下更多可解释的关联(例如,与“说出运动名称”相关的特征和“极限飞盘”特征之间的强关联)。
当然,TWERA也不是万能药,它同样存在局限,比如对抑制性关系的处理不够好。但它确实提供了一个比单张归因图更广阔的视角,让我们能看到特征在更广泛背景下的行为模式。
四、面纱尚存
尽管这项研究在打开AI“黑箱”的道路上迈出了一大步,但它远非终点,面前依然存在着重重“面纱”。
首要局限在于注意力回路的缺失。 当前方法固定了注意力模式,这意味着归因图无法解释模型是如何决定“关注”哪些信息的(即QK-circuit的计算过程)。在需要理解注意力动态变化的任务中,这种归因图“基本上毫无用处”。
其次,替换模型的“忠实度”存疑。 即使跨层转码器(CLT)能完美重建原模型的输出,也无法保证它用的是和原模型一模一样的内部机制。它可能学了一套不同的“算法”,只是在训练数据上结果相同,一旦遇到新情况就可能出错。
最后,方法本身存在一个两难困境。 归因图的成功,很大程度上依赖于CLT特征的稀疏性——它让我们能聚焦于少数活跃特征。但这建立在“只有活跃特征才重要”的假设上。然而在某些情况下,那些因为被强烈抑制而“沉默”的非活跃特征,可能才是影响输出的关键。忽略它们,显然与“揭示底层机制”的初衷背道而驰。
Anthropic坦言,未来的研究需要探索如何无监督地识别这些关键的抑制性特征,例如通过特征消融实验,去关注那些距离被激活仅“一步之遥”的沉默特征。只有把这些面纱逐一揭开,我们才能真正理解语言模型庞大而精密的“思考”过程。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
哈弗猛龙PLUS七座四驱版上市 起售价16.18万元
哈弗猛龙PLUS中型方盒子SUV正式上市,限时售价16 18万元起。新车车身尺寸宽大,轴距2850mm,提供五座和七座布局,后两排可纯平放倒,后备厢最大容积达1549L。其搭载第二代Hi4智能电四驱系统,综合功率330kW,零百加速5 8秒,并提供最长255km的纯电续航。车内配备15 6英寸大屏、
黄仁勋北京街头同款蜜桃四季春蜜雪冰城推出限定专区
英伟达CEO黄仁勋在北京街头购买蜜雪冰城饮品的举动,迅速演变为一场品牌营销事件。蜜雪冰城官方不仅在社交媒体上积极互动,确认“同款”身份,更在其点单小程序中火速上线了“大佬同款”专区,主推售价7元起的蜜桃四季春果茶。这一系列操作展示了品牌对热点事件的快速捕捉和营销转化能力,成功将科技界人物的影响力引流
光帆AI穿戴设备开售:耳机手表融合的全感知交互体验
光帆科技近日正式推出了其首款AI全感穿戴设备,该产品由AI全感耳机与AI手表组合而成,并同步发售了获得《三体》IP官方授权的联名款。设备搭载自研AIOS系统,主打全感知、主动式AI与硬核可玩三大特性,旨在为用户提供下一代沉浸式交互体验。通过耳机与手表的协同,它试图整合多模态感知能力,让AI服务更主
乐道L80大五座SUV上市 舍弃第三排打造越级空间与智能座舱
乐道汽车推出全新大五座纯电SUVL80,起售价15 68万元(租电方案)。新车舍弃第三排,轴距达3110mm,打造出越级第二排空间与灵活储物能力,配备240升前备舱与最大2600升后备厢。座舱采用分层设计,配备多屏交互、5纳米神玑芯片及城区领航换电功能。底盘搭载空气悬架与4D舒适领航,安全方面标配
中加农食产品检疫合作升级 保障双边贸易安全与质量
中国海关总署与加拿大食品检验署近日举行高层会晤,重点围绕落实两国领导人共识、保障农食产品检疫安全及深化合作等议题交换意见。双方同意加强技术交流与信息共享,以提升贸易透明度与可靠性,并探讨推动检疫标准互认,旨在简化流程、促进双边农食产品贸易增长,为消费者提供更安全的食品保障。
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

