面包屑图标 当前位置: 首页
AI资讯
热点详情

ICML 2026 Oral:北大智源提出机理数据归因,揭示大模型能力来源

AI热点日报
AI热点日报时间:2026-06-29
热点解读

近年来,大语言模型展现出越来越强的能力,从上下文学习到复杂推理、代码生成,这些能力不断刷新着人们对模型能力边界的认知。 然而,对于这些能力究竟从何而来、在训练过程中如何形成,我们仍然知之甚少。 当前一个研究热点是机理可解释性,它旨在揭示模型内部的计算机制。例如,归纳头被普遍认为是模型涌现上下文学习能

近年来,大语言模型展现出越来越强的能力,从上下文学习到复杂推理、代码生成,这些能力不断刷新着人们对模型能力边界的认知。

ICML 2026 Oral|大模型的能力从哪些训练数据来?北大&智源提出「机理数据归因」

然而,对于这些能力究竟从何而来、在训练过程中如何形成,我们仍然知之甚少。

当前一个研究热点是机理可解释性,它旨在揭示模型内部的计算机制。例如,归纳头被普遍认为是模型涌现上下文学习能力的关键神经机制。这类注意力头能够识别并复制先前出现的模式,从而实现类似“从示例中学习”的行为。相关研究不仅在多个模型中发现了归纳头,也较为清晰地刻画了它们在推理阶段的工作方式。

不过,这类研究大多停留在事后分析层面。我们能揭示模型内部的计算机制,并将其逆向拆解成可理解的“电路”。我们能描述一个电路在推理时“算什么”,却回答不了它“怎么来”——是哪一部分训练数据、以怎样的方式,在预训练过程中塑造了它?例如,我们早已能观察归纳头在训练完成后的功能,却仍不清楚它们究竟是如何在预训练过程中形成的。

更进一步,究竟是哪一部分训练数据塑造了这种能力?是结构严谨的教科书文本,还是蕴含大量重复模式与逻辑结构的代码语料?这些问题至今仍缺乏明确答案。

北京大学计算机学院和北京智源人工智能研究院的研究团队,正是从这个被长期忽视的“数据溯源”维度切入,提出了机理数据归因框架。它第一次把可解释性的提问,从“模型内部有什么机制”,推进到“这些内部机制是被哪些训练数据因果地塑造出来的”——并由此打通了一条“训练数据 ⇒ 内部机制 ⇒ 模型行为”的因果链条。

而沿着这条链条,他们得到了一个相当反直觉的答案:真正催化归纳头形成的,并不是人类眼中“高质量”的优美文本。那些看似杂乱无章、包含大量重复结构的“垃圾数据”(如 XML 标签、乱码般的 Base64 字符串、LaTeX 源代码),才是塑造归纳头的核心动力。

该工作已被机器学习顶级会议 ICML 2026 接收为 Oral & Spotlight(168 / 23,918,录用比 Top 0.7%)。

  • 论文标题:Mechanistic Data Attribution: Tracing the Training Origins of Interpretable LLM Units

  • 论文链接:https://arxiv.org/pdf/2601.21996

  • 代码链接:https://github.com/chenjianhuii/Mechanistic-Data-Attribution

MDA 框架:可解释单元级别的训练数据归因

要理解 MDA 的新意,先要看清它和传统方法的分界。

经典的训练数据归因关注的是“某条数据对模型整体 Loss 的影响”。这就像只用一个人的“整体健康状况”,去倒推他某天吃下的一粒维生素起了什么作用。这种方式粒度太粗、计算昂贵,也无法对应到任何一个具体的内部机制。

MDA 的核心转变在于:不再关注全局模型行为,而是通过影响函数精确追踪特定“可解释单元”(如归纳头)的形成源头。

图一:MDA 框架总览。从定位可解释单元,到计算数据影响力,再到因果验证与干预。

具体而言,MDA 是一个三阶段框架:

  1. 定位:首先定义可解释单元的监测指标(如针对归纳头的前缀匹配分数),定位那些具备可解释性的关键单元(例如神经元、注意力头等)及其参数子空间

  2. 归因:利用 EK-FAC(特征值校正的 Kronecker 因子近似曲率)技术,高效估算海量训练数据对特定参数子空间的影响分数。这使得在大规模预训练语料中进行归因成为可能;

  3. 干预:通过“数据删除”与“数据增强”实验,因果性地验证被筛出的高影响样本是否真的塑造了目标机制。

值得一提的是,MDA 的计算开销随模型规模呈亚线性增长,作者还在 OLMo-2 1B / 7B 上做了定性验证,表明这套归因方法在更大模型上依然能稳定捕捉到一致的结构模式。

归纳头形成的关键数据:重复的结构,比语义更重要

在 Pythia 模型家族(14M–160M)上的系统分析,揭示了归纳头形成背后一系列令人意外、却又自洽的规律:

1. 高影响力样本特征

对于归纳头的形成,在按影响力排序的训练数据中,排名前列的往往不是人类认为“高质量”的自然语言文本,而是充斥着重复结构的数据:

  • XML/HTML 代码:充满重复的标签结构;

  • LaTeX 源码:包含大量的符号和格式指令;

  • UUID 与日志:看似无意义的字符串重复;

  • Base64 编码:字符层面的密集重复。

表一:代表性高影响力样本示例

更关键的是,这些影响分数呈现出清晰的幂律分布 —— 约 10% 的样本,贡献了高达 50% 的累计影响力。也就是说,归纳头机制的形成确实被一小撮“高杠杆”信号显著驱动。

结论:归纳头的形成并不依赖于高深的语义逻辑,而是被这些高频重复的结构模体所“催化”的。

这背后的解释相当自洽:归纳头的本职工作就是“识别并复制重复模式”,那么真正能高效“训练”它的习题,自然就是这些充满重复结构的数据。

2. 因果验证:删除会抑制,增强会催化

从训练数据到内部机制的因果验证:

训练数据的影响分数只能代表“相关性”,因果验证才是 MDA 的核心。作者在 Pythia 全家族、两类注意力头(归纳头与前序词元头)上做了双向干预:

  • 删除实验(必要性):剔除 MDA 识别出的高影响样本(≤10%),归纳头的形成被显著抑制或延后;而随机删除等量的其他样本,几乎没有影响;

  • 增强实验(充分性):反之,仅重复这一小撮关键样本,就能让归纳头提前涌现;同样地,随机增强无此效果。

从内部机制到模型能力的因果验证:

另外,“归纳头是 ICL 的基础”是领域内长期的核心假设,但此前的证据主要是观测性的。借助 MDA 的精准干预,作者得以从训练动态的视角检验这一因果链:在完全相同的删除 / 增强设置下,归纳头强度与 ICL 得分呈现“同升同降”的紧密耦合。抑制归纳头形成会削弱 ICL,强化则会提升。

图二:因果验证实验(上)归纳头分数(下)ICL 能力分数。红线显示剔除 MDA 识别的数据后,归纳头形成被延后;绿线显示增强这些数据后,归纳头迅速涌现,而 ICL 能力与归纳头变化完全同步。

通过以上两部分的因果干预试验,MDA 打通了一条“训练数据 ⇒ 内部机制 ⇒ 模型行为”的完整因果链条。

从“事后解释”到“事前干预”:机理数据增强

如果我们已经知道了驱动某个机制形成的数据“配方”,能不能主动合成这类数据,去定向催化模型的特定能力?

论文顺势提出了一种机理数据增强框架

  1. 小模型“探路”:利用较小的模型(如 Pythia-14M)运行 MDA,挖掘出高影响力样本;

  2. 大模型总结:让 DeepSeek-V3 等大模型分析这些样本,提取出样本中的共同结构特征;

  3. 批量合成数据:让大模型编写自动生成符合这些结构特征的合成数据的可执行代码。

图三:合成数据在不同规模模型上的效果。仅用 14M 模型挖掘出的模式生成的合成数据,就能在 160M 模型上显著加速归纳头的形成。

实验结果有两点令人振奋:

  • 跨尺度一致提升:这种基于机理的数据增强具有一致的“跨尺度迁移性”。同一套合成数据,在 14M / 31M / 70M / 160M 上分别带来 +12.3% / +10.8% / +15.8% / +9.8% 的归纳头得分提升。更有意思的是,从 14M 小模型提炼出的模式,迁移到 160M 模型上的效果,甚至超过了直接从 160M 自身提炼的数据——说明催化归纳头的结构“配方”在很大程度上是尺度无关的,可以用小模型作为低成本袋里来优化大模型训练。

  • 不牺牲通用能力:在 Wikitext-103 语言建模与 PopQA 事实问答上,增强后的模型与基线曲线几乎重合,没有出现可统计区分的退化。这一对照排除了使用 MDA 会导致“为催化特定电路而损害整体能力”的担忧。

结语

MDA 的意义远不止“一个更精细的数据归因工具”。它标志着可解释性研究的一次角色转变 —— 从只会“解释模型里有什么”,走向能够“回答它从哪来、并动手干预它如何形成”

更进一步,它为一个更大的愿景提供了一块基石:让大模型的训练,从经验主导的“黑盒炼丹”,走向机理驱动的“白盒构建”。沿着“数据 ⇒ 机制 ⇒ 行为”这条被 MDA 打通的因果链,至少有三个方向可以被打开:

  • 数据治理的新视角:传统“高质量数据清洗”可能会误删那些对底层机制至关重要的“重复性废话”。MDA 提醒我们,数据的价值需要从“对机制的因果贡献”重新评估。

  • 更高效的预训练(潜在方向):通过定向合成承载特定机制的结构数据,有望降低能力形成所需的训练成本 —— 本文已给出小规模上的有力证据,更大规模的系统验证则是值得期待的下一步。

  • 更本质的机理对齐:当我们能在数据层面精确地催化或抑制某个内部机制,“定向切除有害回路或偏见”这类更深层的对齐与遗忘,就从理念变得有了可操作的抓手。

在大模型炼丹术日益精细的今天,MDA 带来的是一把能追溯到数据源头的显微镜 —— 它让我们第一次有机会认真追问:模型的每一项能力,到底是被哪些数据、以怎样的方式塑造出来的。未来,当这个问题能被系统地回答,大模型的“黑盒”,也许就不再那么黑了。

热点追踪提示词
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:ICML 2026 Oral:北大智源提出机理数据归因,揭示大模型能力来源要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
来源:https://www.jiqizhixin.com/articles/2026-06-28-4
大模型

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关热点
AI热点2026-07-04 19:00
Daetama数据科学完整准备工作系统指南与精选学习资源汇总

Daetama是面向数据科学面试和SQL能力提升的练习平台,已收录超100个覆盖基础到进阶的SQL题目,求职板块与课程模块在开发中,团队保持每周更新节奏,提供系统性刷题与模拟面试场景。

AI热点2026-07-04 19:00
AI驱动配音平台 Speakmulti

SpeakMulti是一款AI驱动的配音平台,可将YouTube视频翻译成多种语言,保留原始说话者的音色和语调,降低本地化成本。用户提交视频并选择目标语言后,AI自动完成配音,并由专家团队审核,确保准确自然。

AI热点2026-07-04 18:59
Umi-OCR图片转文字识别软件

需求人群 如果你经常需要从图片中提取文字——例如整理截图内容、翻译图片里的外语文本、识别带有水印的图片信息——那么 Umi-OCR 无疑是一款相当实用的工具。它完全在本地运行,无需联网,对隐私保护极为友好。 产品特色 这款工具的核心亮点都集中在实用性上。截屏识别操作非常顺手,按下快捷键即可框选区域,

AI热点2026-07-04 18:59
用AI生成你最爱的画家或艺术运动风格绘画

艺术创作与人工智能的融合,正在开启一个全新的创作时代。moonlightai 正是这样一款AI绘画工具,能够帮助用户通过人工智能快速生成不同风格的绘画作品——无论你想复刻文艺复兴时期的古典优雅,还是为画作注入梵高般炽热的笔触,甚至从艾沃佐夫斯基的海浪星空中汲取灵感,它都能轻松实现。 需求人群 简单来

延伸阅读