研究发现大模型“长脑子”：LLM中层会自发模拟人脑进化

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

研究发现大模型“长脑子”：LLM中层会自发模拟人脑进化

热心网友时间：2026-01-15

转载

编辑｜Panda

生物智能与人工智能的演化路径截然不同，但它们是否遵循某些共同的计算原理？

最近，来自帝国理工学院、华为诺亚方舟实验室等机构的研究人员发表了一篇新论文。该研究指出，大型语言模型（LLM）在学习过程中会自发演化出一种协同核心（Synergistic Core）结构，有些类似于生物的大脑。

论文标题：A Brain-like Synergistic Core in LLMs Drives Behaviour and Learning论文地址：https://arxiv.org/abs/2601.06851

研究团队利用部分信息分解（Partial Information Decomposition, PID）框架，对 Gemma、Llama、Qwen 和 DeepSeek 等模型进行了深度剖析。

他们发现，这些模型的中层表现出极强的协同处理能力，而底层和顶层则更偏向于冗余处理。

协同与冗余：LLM 的内部架构

研究团队将大型语言模型视为分布式信息处理系统，其核心实验设计旨在量化模型内部组件之间交互的本质。为了实现这一目标，研究者选取了 Gemma 3、Llama 3、Qwen 3 8B 以及 DeepSeek V2 Lite Chat 等多种具有代表性的模型系列进行对比分析。

实验方法与量化指标

在实验过程中，研究者向模型输入了涵盖语法纠错、逻辑推理、常识问答等 6 个类别的认知任务提示词。

针对每一个提示词，模型会生成一段 100 个 Token 的回答，实验设备则同步记录下每一层中所有注意力头或专家模块的激活值。

具体而言，研究人员计算了这些输出向量的 L2 范数，以此作为该单元在特定时间步的激活强度数据。

基于这些时间序列数据，研究团队应用了整合信息分解（Integrated Information Decomposition, ID）框架。

这一框架能够将注意力头对之间的交互分解为「持续性协同」和「持续性冗余」等不同原子项。

通过对所有注意力头对的协同值和冗余值进行排名并求差，研究者得到了一个关键指标：协同-冗余秩（Synergy-Redundancy Rank）。该指标能够清晰地标示出模型组件在处理信息时，究竟是倾向于进行独立的信号聚合，还是在进行跨单元的深度集成。

跨模型的空间分布规律

实验数据揭示了一个在不同架构模型中高度一致的空间组织规律。在归一化后的模型层深图中，协同分布呈现出显著的「倒 U 型」曲线：

冗余外周（Redundant Periphery）：模型的早期层（靠近输入端）和末期层（靠近输出端）表现出极低的协同秩，信息处理以冗余模式为主。在早期层，这反映了模型在进行基本的解词元化（Detokenization）和局部特征提取；而在末期层，则对应着 Token 预测和输出格式化的过程。协同核心（Synergistic Core）：模型的中层则展现出极高的协同秩，形成了核心处理区。例如，在对 Gemma 3 4B 的热图分析中，中间层的注意力头之间表现出密集且强烈的协同交互，这正是模型进行高级语义集成和抽象推理的区域。

架构差异与一致性

值得注意的是，这种「协同核心」的涌现并不依赖于特定的技术实现。

在 DeepSeek V2 Lite 模型中，研究者即使是以「专家模块」而非「注意力头」作为分析单位，依然观察到了相同的空间分布特征。

这种跨架构的收敛性表明，协同处理可能是实现高级智能的一种计算必然，而非单纯的工程巧合。

这种组织模式与人脑的生理结构形成了精确的映射：人脑的感官和运动区域同样表现出高冗余性，而负责复杂认知功能的联合皮层则处于高协同的「全局工作空间」中心。

智能的涌现：学习驱动而非架构使然

一个关键的问题在于：这种结构是 Transformer 架构自带的，还是通过学习习得的？

研究人员通过分析 Pythia 1B 模型的训练过程发现，在随机初始化的网络中，这种「倒 U 型」的协同分布并不存在。随着训练步数的增加，这种组织架构才逐渐稳定形成。