数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

热点详情

ICML 2026 Oral：北大智源提出机理数据归因，揭示大模型能力来源

AI热点日报时间：2026-06-29

热点解读

近年来，大语言模型展现出越来越强的能力，从上下文学习到复杂推理、代码生成，这些能力不断刷新着人们对模型能力边界的认知。然而，对于这些能力究竟从何而来、在训练过程中如何形成，我们仍然知之甚少。当前一个研究热点是机理可解释性，它旨在揭示模型内部的计算机制。例如，归纳头被普遍认为是模型涌现上下文学习能

近年来，大语言模型展现出越来越强的能力，从上下文学习到复杂推理、代码生成，这些能力不断刷新着人们对模型能力边界的认知。

ICML 2026 Oral｜大模型的能力从哪些训练数据来？北大&智源提出「机理数据归因」

然而，对于这些能力究竟从何而来、在训练过程中如何形成，我们仍然知之甚少。

当前一个研究热点是机理可解释性，它旨在揭示模型内部的计算机制。例如，归纳头被普遍认为是模型涌现上下文学习能力的关键神经机制。这类注意力头能够识别并复制先前出现的模式，从而实现类似“从示例中学习”的行为。相关研究不仅在多个模型中发现了归纳头，也较为清晰地刻画了它们在推理阶段的工作方式。

不过，这类研究大多停留在事后分析层面。我们能揭示模型内部的计算机制，并将其逆向拆解成可理解的“电路”。我们能描述一个电路在推理时“算什么”，却回答不了它“怎么来”——是哪一部分训练数据、以怎样的方式，在预训练过程中塑造了它？例如，我们早已能观察归纳头在训练完成后的功能，却仍不清楚它们究竟是如何在预训练过程中形成的。

更进一步，究竟是哪一部分训练数据塑造了这种能力？是结构严谨的教科书文本，还是蕴含大量重复模式与逻辑结构的代码语料？这些问题至今仍缺乏明确答案。

北京大学计算机学院和北京智源人工智能研究院的研究团队，正是从这个被长期忽视的“数据溯源”维度切入，提出了机理数据归因框架。它第一次把可解释性的提问，从“模型内部有什么机制”，推进到“这些内部机制是被哪些训练数据因果地塑造出来的”——并由此打通了一条“训练数据 ⇒ 内部机制 ⇒ 模型行为”的因果链条。

而沿着这条链条，他们得到了一个相当反直觉的答案：真正催化归纳头形成的，并不是人类眼中“高质量”的优美文本。那些看似杂乱无章、包含大量重复结构的“垃圾数据”（如 XML 标签、乱码般的 Base64 字符串、LaTeX 源代码），才是塑造归纳头的核心动力。

该工作已被机器学习顶级会议 ICML 2026 接收为 Oral & Spotlight（168 / 23,918，录用比 Top 0.7%）。

论文标题：Mechanistic Data Attribution: Tracing the Training Origins of Interpretable LLM Units
论文链接：https://arxiv.org/pdf/2601.21996
代码链接：https://github.com/chenjianhuii/Mechanistic-Data-Attribution

MDA 框架：可解释单元级别的训练数据归因

要理解 MDA 的新意，先要看清它和传统方法的分界。

经典的训练数据归因关注的是“某条数据对模型整体 Loss 的影响”。这就像只用一个人的“整体健康状况”，去倒推他某天吃下的一粒维生素起了什么作用。这种方式粒度太粗、计算昂贵，也无法对应到任何一个具体的内部机制。

MDA 的核心转变在于：不再关注全局模型行为，而是通过影响函数精确追踪特定“可解释单元”（如归纳头）的形成源头。

^{图一：MDA 框架总览。从定位可解释单元，到计算数据影响力，再到因果验证与干预。}

具体而言，MDA 是一个三阶段框架：

定位：首先定义可解释单元的监测指标（如针对归纳头的前缀匹配分数），定位那些具备可解释性的关键单元（例如神经元、注意力头等）及其参数子空间；
归因：利用 EK-FAC（特征值校正的 Kronecker 因子近似曲率）技术，高效估算海量训练数据对特定参数子空间的影响分数。这使得在大规模预训练语料中进行归因成为可能；
干预：通过“数据删除”与“数据增强”实验，因果性地验证被筛出的高影响样本是否真的塑造了目标机制。

值得一提的是，MDA 的计算开销随模型规模呈亚线性增长，作者还在 OLMo-2 1B / 7B 上做了定性验证，表明这套归因方法在更大模型上依然能稳定捕捉到一致的结构模式。

归纳头形成的关键数据：重复的结构，比语义更重要

在 Pythia 模型家族（14M–160M）上的系统分析，揭示了归纳头形成背后一系列令人意外、却又自洽的规律：

1. 高影响力样本特征

对于归纳头的形成，在按影响力排序的训练数据中，排名前列的往往不是人类认为“高质量”的自然语言文本，而是充斥着重复结构的数据：

XML/HTML 代码：充满重复的标签结构；
LaTeX 源码：包含大量的符号和格式指令；
UUID 与日志：看似无意义的字符串重复；
Base64 编码：字符层面的密集重复。

^{表一：代表性高影响力样本示例}

更关键的是，这些影响分数呈现出清晰的幂律分布 —— 约 10% 的样本，贡献了高达 50% 的累计影响力。也就是说，归纳头机制的形成确实被一小撮“高杠杆”信号显著驱动。

结论：归纳头的形成并不依赖于高深的语义逻辑，而是被这些高频重复的结构模体所“催化”的。

这背后的解释相当自洽：归纳头的本职工作就是“识别并复制重复模式”，那么真正能高效“训练”它的习题，自然就是这些充满重复结构的数据。

2. 因果验证：删除会抑制，增强会催化

从训练数据到内部机制的因果验证：

训练数据的影响分数只能代表“相关性”，因果验证才是 MDA 的核心。作者在 Pythia 全家族、两类注意力头（归纳头与前序词元头）上做了双向干预：

删除实验（必要性）：剔除 MDA 识别出的高影响样本（≤10%），归纳头的形成被显著抑制或延后；而随机删除等量的其他样本，几乎没有影响；
增强实验（充分性）：反之，仅重复这一小撮关键样本，就能让归纳头提前涌现；同样地，随机增强无此效果。

从内部机制到模型能力的因果验证：

另外，“归纳头是 ICL 的基础”是领域内长期的核心假设，但此前的证据主要是观测性的。借助 MDA 的精准干预，作者得以从训练动态的视角检验这一因果链：在完全相同的删除 / 增强设置下，归纳头强度与 ICL 得分呈现“同升同降”的紧密耦合。抑制归纳头形成会削弱 ICL，强化则会提升。

^{图二：因果验证实验（上）归纳头分数（下）ICL 能力分数。红线显示剔除 MDA 识别的数据后，归纳头形成被延后；绿线显示增强这些数据后，归纳头迅速涌现，而 ICL 能力与归纳头变化完全同步。}

通过以上两部分的因果干预试验，MDA 打通了一条“训练数据 ⇒ 内部机制 ⇒ 模型行为”的完整因果链条。

从“事后解释”到“事前干预”：机理数据增强

如果我们已经知道了驱动某个机制形成的数据“配方”，能不能主动合成这类数据，去定向催化模型的特定能力？

论文顺势提出了一种机理数据增强框架：

小模型“探路”：利用较小的模型（如 Pythia-14M）运行 MDA，挖掘出高影响力样本；
大模型总结：让 DeepSeek-V3 等大模型分析这些样本，提取出样本中的共同结构特征；
批量合成数据：让大模型编写自动生成符合这些结构特征的合成数据的可执行代码。

^{图三：合成数据在不同规模模型上的效果。仅用 14M 模型挖掘出的模式生成的合成数据，就能在 160M 模型上显著加速归纳头的形成。}

实验结果有两点令人振奋：

跨尺度一致提升：这种基于机理的数据增强具有一致的“跨尺度迁移性”。同一套合成数据，在 14M / 31M / 70M / 160M 上分别带来 +12.3% / +10.8% / +15.8% / +9.8% 的归纳头得分提升。更有意思的是，从 14M 小模型提炼出的模式，迁移到 160M 模型上的效果，甚至超过了直接从 160M 自身提炼的数据——说明催化归纳头的结构“配方”在很大程度上是尺度无关的，可以用小模型作为低成本袋里来优化大模型训练。
不牺牲通用能力：在 Wikitext-103 语言建模与 PopQA 事实问答上，增强后的模型与基线曲线几乎重合，没有出现可统计区分的退化。这一对照排除了使用 MDA 会导致“为催化特定电路而损害整体能力”的担忧。

结语

MDA 的意义远不止“一个更精细的数据归因工具”。它标志着可解释性研究的一次角色转变 —— 从只会“解释模型里有什么”，走向能够“回答它从哪来、并动手干预它如何形成”。

更进一步，它为一个更大的愿景提供了一块基石：让大模型的训练，从经验主导的“黑盒炼丹”，走向机理驱动的“白盒构建”。沿着“数据 ⇒ 机制 ⇒ 行为”这条被 MDA 打通的因果链，至少有三个方向可以被打开：

数据治理的新视角：传统“高质量数据清洗”可能会误删那些对底层机制至关重要的“重复性废话”。MDA 提醒我们，数据的价值需要从“对机制的因果贡献”重新评估。
更高效的预训练（潜在方向）：通过定向合成承载特定机制的结构数据，有望降低能力形成所需的训练成本 —— 本文已给出小规模上的有力证据，更大规模的系统验证则是值得期待的下一步。
更本质的机理对齐：当我们能在数据层面精确地催化或抑制某个内部机制，“定向切除有害回路或偏见”这类更深层的对齐与遗忘，就从理念变得有了可操作的抓手。

在大模型炼丹术日益精细的今天，MDA 带来的是一把能追溯到数据源头的显微镜 —— 它让我们第一次有机会认真追问：模型的每一项能力，到底是被哪些数据、以怎样的方式塑造出来的。未来，当这个问题能被系统地回答，大模型的“黑盒”，也许就不再那么黑了。

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：ICML 2026 Oral：北大智源提出机理数据归因，揭示大模型能力来源要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://www.jiqizhixin.com/articles/2026-06-28-4

大模型

上一篇：《人类简史》作者尤瓦尔：防止AI失控需符合人类价值观

下一篇：人工智能考古新突破：研发新型机器学习系统

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。