当前位置: 首页
AI
Anthropic AI 揭示大模型注意力回路机制

Anthropic AI 揭示大模型注意力回路机制

热心网友 时间:2026-05-16
转载

最近,Anthropic公司发布了一项挺有意思的研究,他们用一种新方法,把大语言模型内部那种“黑箱”计算过程,给画成了一张张能看懂的“地图”。这就像给AI做了一次脑部CT扫描,让我们能直观地看到,当模型回答“迈克尔·乔丹从事什么运动?”时,它脑子里的“神经元”是怎么一步步点亮“篮球”这个答案的。

简单来说,模型处理这个问题时,信息走了三条主要通路:一是从“从事”和“运动”这些词本身出发,激活了“输出运动项目”的倾向;二是从“迈克尔·乔丹”这个名字关联的“名人”特征出发,这个特征会正向推动“篮球”,同时抑制“足球”等其他选项;三是还有一些特征组直接建立了到“篮球”的快速通道。最终,这三股力量合流,让模型稳稳地填上了“basketball”。

这项成果的核心,在于他们提出了一套两步走的“解码”方法论:第一步,找到模型内部那些可解释的基本计算单元——也就是“特征”;第二步,弄清楚这些特征之间是如何通过特定的“回路”相互作用,最终产生输出的。 这与此前试图直接分析原始神经元的研究思路不同,Anthropic选择先构建一个更“透明”的“替换模型”。

一、建立可解释的替换模型

为什么非要绕个弯子,先搞个“替换模型”呢?这得从深度学习模型的老大难问题说起。传统的神经网络由海量人工神经元构成,但一个尴尬的事实是:模型需要表达的概念数量,往往远超其神经元数量。这就导致单个神经元常常“身兼数职”,同时表征多个不相关的概念,变得难以解读。直接用它们作为分析基础,就像试图通过观察一团乱麻来理解织布机的结构,困难重重。

Anthropic的“替换模型”核心是一种叫“跨层转码器”(Cross-Layer Transcoder, CLT)的架构。你可以把它想象成给原模型的每一层“思维”都配了一个翻译官。这些翻译官(即CLT特征)用稀疏激活的方式,专门负责重建原模型对应层的输出。关键是,这些特征能从早期层接收信息,却能向所有后续层传递信息,实现了真正的“跨层”沟通。

评估显示,这种CLT模型在重现原模型输出方面表现不错,尤其随着模型规模增大,匹配度更高。但问题来了,即便替换模型有时能复现结果,误差仍然存在,而且可能层层累积。为了精准分析某个特定问题(例如一个具体的提示词),研究人员又构建了更精确的“局部替换模型”。

这个局部模型可以看作一个针对单一提示展开的巨型神经网络,其神经元就是该提示下所有活跃的CLT特征。在这个网络上,可以进行经典的“电路分析”,追踪信息从输入到输出的每一条路径。它成为了后续绘制“归因图”的坚实基础。

二、构建归因图

有了局部替换模型,怎么把它变成我们能看懂的图呢?Anthropic以让模型为一个虚构机构“国家数字分析小组”(The National Digital Analytics Group)生成首字母缩写为例,展示了全过程。

向模型输入“The National Digital Analytics Group (N”后,模型输出了“DAG”。归因图清晰地揭示了这个“DAG”是怎么来的:图中有三条主要路径,分别源于“Digital”、“Analytics”、“Group”这三个词。每条路径都从识别该单词的特征开始,进而激活“在正确位置说出该单词首字母”的特征,最终这些特征共同推动模型输出“DAG”。

当然,图也显示了一些有趣的现象。比如,模型需要先“决定”输出一个缩写,并考虑到提示中已经给出了“N”。图中可以看到“在缩写中”和“在缩写开头的N”等特征确实在起作用,而“National”一词本身对输出的直接影响却很微弱。研究人员推测,它的主要作用可能是通过影响模型的“注意力”分配来实现的,而当前的归因图方法暂时还无法解释注意力机制内部的运作。

构建出的原始归因图信息量极大,包含数百万条边。为此,研究团队开发了交互式可视化工具,并采用剪枝算法聚焦关键路径。通常,在将节点数量减少90%后,仍然能保留80%以上的解释力,这让分析变得可行。

特征理解与标注

面对图中成千上万个特征,如何理解它们?团队采用了与之前“规模化单义性”研究类似的方法,对特征进行人工标注。

最容易标注的是两类特征:输入特征(常在浅层,对特定词汇或类别反应强烈)和输出特征(常在深层,直接促进或抑制某些词元的生成)。中间层的特征则更为抽象,需要结合它活跃的上下文、它对哪些词有直接促进/抑制效果,以及它与其他特征的连接关系来综合推断。

即使标注做不到完美,这些特征标签已经能有效揭示归因图中的核心结构。为了简化视图,研究人员还将功能相似的特征组合成“超节点”。例如,所有与“Digital”这个词相关的不同特征,在分析缩写任务时,可以视为一个整体单元。

通过干预措施验证归因图假设

图画出来了,怎么知道它是不是对的?Anthropic采用了“干预实验”来验证:如果我们在原模型中,人为抑制归因图中某个被认为很重要的特征,那么模型对应的输出是否会被削弱?实验证实了这一点。例如,抑制“Digital”或“Analytics”相关的特征,会显著降低模型输出“DAG”的概率。

归因图还能帮助定位关键层。比如,在加法任务“36+59=?”中,分析发现“Analytics”特征主要通过第13层及之后的中间特征间接影响最终输出。干预实验也显示,如果在第13层之前抑制这些特征,效果最明显,这和图的分析吻合。

三、全局权重

归因图展示的是特定提示下的局部互动。那么,特征之间是否存在一种全局的、与上下文无关的固有联系呢?这就引出了“虚拟权重”的概念。

理想情况下,我们希望得到一组全局权重,能刻画特征在所有可能上下文中的平均互动强度。但这里有个大的麻烦:干扰。由于数百万个特征都通过残差流连接,即使两个特征从未在真实数据中同时激活,它们之间也可能计算出一个很大的虚拟权重,但这其实对网络的实际功能毫无影响。

为了解决干扰问题,研究人员引入了特征共激活的统计信息,计算了“目标加权预期残差归因”(TWERA)。这相当于在平均互动强度时,更多地考虑那些在数据中实际经常一起出现的特征对。经过这样处理,许多无意义的干扰连接被过滤掉了,留下更多可解释的关联(例如,与“说出运动名称”相关的特征和“极限飞盘”特征之间的强关联)。

当然,TWERA也不是万能药,它同样存在局限,比如对抑制性关系的处理不够好。但它确实提供了一个比单张归因图更广阔的视角,让我们能看到特征在更广泛背景下的行为模式。

四、面纱尚存

尽管这项研究在打开AI“黑箱”的道路上迈出了一大步,但它远非终点,面前依然存在着重重“面纱”。

首要局限在于注意力回路的缺失。 当前方法固定了注意力模式,这意味着归因图无法解释模型是如何决定“关注”哪些信息的(即QK-circuit的计算过程)。在需要理解注意力动态变化的任务中,这种归因图“基本上毫无用处”。

其次,替换模型的“忠实度”存疑。 即使跨层转码器(CLT)能完美重建原模型的输出,也无法保证它用的是和原模型一模一样的内部机制。它可能学了一套不同的“算法”,只是在训练数据上结果相同,一旦遇到新情况就可能出错。

最后,方法本身存在一个两难困境。 归因图的成功,很大程度上依赖于CLT特征的稀疏性——它让我们能聚焦于少数活跃特征。但这建立在“只有活跃特征才重要”的假设上。然而在某些情况下,那些因为被强烈抑制而“沉默”的非活跃特征,可能才是影响输出的关键。忽略它们,显然与“揭示底层机制”的初衷背道而驰。

Anthropic坦言,未来的研究需要探索如何无监督地识别这些关键的抑制性特征,例如通过特征消融实验,去关注那些距离被激活仅“一步之遥”的沉默特征。只有把这些面纱逐一揭开,我们才能真正理解语言模型庞大而精密的“思考”过程。

来源:https://www.leiphone.com/category/ai/AuOBr2ga26JnTWly.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
哈弗猛龙PLUS七座四驱版上市 起售价16.18万元

哈弗猛龙PLUS七座四驱版上市 起售价16.18万元

哈弗猛龙PLUS中型方盒子SUV正式上市,限时售价16 18万元起。新车车身尺寸宽大,轴距2850mm,提供五座和七座布局,后两排可纯平放倒,后备厢最大容积达1549L。其搭载第二代Hi4智能电四驱系统,综合功率330kW,零百加速5 8秒,并提供最长255km的纯电续航。车内配备15 6英寸大屏、

时间:2026-05-16 11:17
黄仁勋北京街头同款蜜桃四季春蜜雪冰城推出限定专区

黄仁勋北京街头同款蜜桃四季春蜜雪冰城推出限定专区

英伟达CEO黄仁勋在北京街头购买蜜雪冰城饮品的举动,迅速演变为一场品牌营销事件。蜜雪冰城官方不仅在社交媒体上积极互动,确认“同款”身份,更在其点单小程序中火速上线了“大佬同款”专区,主推售价7元起的蜜桃四季春果茶。这一系列操作展示了品牌对热点事件的快速捕捉和营销转化能力,成功将科技界人物的影响力引流

时间:2026-05-16 11:17
光帆AI穿戴设备开售:耳机手表融合的全感知交互体验

光帆AI穿戴设备开售:耳机手表融合的全感知交互体验

光帆科技近日正式推出了其首款AI全感穿戴设备,该产品由AI全感耳机与AI手表组合而成,并同步发售了获得《三体》IP官方授权的联名款。设备搭载自研AIOS系统,主打全感知、主动式AI与硬核可玩三大特性,旨在为用户提供下一代沉浸式交互体验。通过耳机与手表的协同,它试图整合多模态感知能力,让AI服务更主

时间:2026-05-16 11:16
乐道L80大五座SUV上市 舍弃第三排打造越级空间与智能座舱

乐道L80大五座SUV上市 舍弃第三排打造越级空间与智能座舱

乐道汽车推出全新大五座纯电SUVL80,起售价15 68万元(租电方案)。新车舍弃第三排,轴距达3110mm,打造出越级第二排空间与灵活储物能力,配备240升前备舱与最大2600升后备厢。座舱采用分层设计,配备多屏交互、5纳米神玑芯片及城区领航换电功能。底盘搭载空气悬架与4D舒适领航,安全方面标配

时间:2026-05-16 11:16
中加农食产品检疫合作升级 保障双边贸易安全与质量

中加农食产品检疫合作升级 保障双边贸易安全与质量

中国海关总署与加拿大食品检验署近日举行高层会晤,重点围绕落实两国领导人共识、保障农食产品检疫安全及深化合作等议题交换意见。双方同意加强技术交流与信息共享,以提升贸易透明度与可靠性,并探讨推动检疫标准互认,旨在简化流程、促进双边农食产品贸易增长,为消费者提供更安全的食品保障。

时间:2026-05-16 11:16
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程