数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

热点详情

为何十年前残差连接仍支撑AI且成隐患

AI热点日报时间：2026-07-05

热点解读

残差连接长期支撑AI架构，但瓶颈明显。超连接扩展残差流却导致信号爆炸与硬件压力。流形约束超连接（mHC）通过伯克霍夫多面体约束信号传播，结合内核融合等工程优化，在270亿参数模型上恢复训练稳定，提升下游性能，训练开销仅增6 7%。

1. 引言

过去十年间，深度学习领域经历了极为迅猛的发展。无论是在硬件算力的显著提升，还是在围绕如何充分利用硬件资源而设计的各类创新架构方面，所取得的进步都有目共睹。然而，若深入思考便会发现，该领域最底层的架构设计，在若干关键维度上其实并未发生根本性变化。尽管我们已经从卷积神经网络时代大步迈入如今支撑大语言模型的Transformer架构，但这些网络在层与层之间传递信息的方式，并没有迎来本质性的变革。

近日，DeepSeek-AI的研究人员发表了一篇题为“mHC：流形约束的超连接”的论文（Xie 等人，2025b）¹，提出了一种对这一信息路由系统的彻底重构方案。要理解这一方案的精妙之处，我们不妨先回顾一下信号传播机制是如何在过去几代模型中演进的，以及为什么现有的方法会遭遇发展瓶颈。

2. 基石：标准残差连接

首先，要理解论文作者试图解决的具体问题，就需要从一切的起点说起——标准残差连接（He 等人，2015）²。早在2015年，与ResNet一同被提出的残差连接，堪称迄今为止所有AI模型架构设计中最重要的选择之一。

（来源：作者）
残差连接的直观示意图

其数学表达如下：

（来源：作者）
xl+1：该层的最终输出激活值
xl：该层的输入激活值
F(.)：该层施加的变换

简单来说，就是一个层的最终输出，等于其自身输出再加上其原始输入。这里的关键在于残差流中那个纯粹的 xl 项，我们称之为恒等映射。它之所以重要，是因为它相当于一条不受干扰的高速通路，让梯度信号能够从网络起点顺畅地流到终点。正是这一特性，从根本上防止了训练过程中梯度的消失或爆炸，使得我们能够成功训练拥有数百层深的模型，同时确保每一层都能有效地学习和更新。

2.1 标准残差连接的问题

然而，随着模型变得越来越庞大，这种直截了当的方法也开始触及它的性能天花板。

在一个标准的Transformer模型里，我们可以把残差流想象成一条固定宽度的“管道”，这个宽度我们称之为维度C。每一段上下文、记忆和特征表示，都必须被硬塞进这个单一的C维向量中，然后再向上传递到下一层。久而久之，随着模型层数加深，信息变得越来越抽象且富有表达力，来自残差流的 xl 项反而成为了信息传递的瓶颈。

通常，如果想提升模型的表示能力，要么得扩大计算层的规模，要么就得增加更多的层。但这么做，也会成倍地增加模型运行所需的计算资源。

2.2 改进方案：超连接（HC）

鉴于上述限制，字节跳动的研究人员引入了一种替代普通残差流的方案，称为超连接（Zhu 等人，2024）³。

（来源：作者）
无约束超连接中信息流动的示意图

如果说普通的残差流太“窄”，那么HC的思路就是将其“加宽”。具体做法是，不再依赖单一的宽度为 C 的流，而是用一个特定的因子（比如 n）来扩展残差流的宽度。这样，我们得到的就是一个由 n 条并行流组成的更宽的向量，总宽度变成了 n×C。

然而，模型中像注意力（Attention）和MLP这样的实际计算层，仍然只接受标准宽度为 C 的输入。为此，HC引入了一组可学习的权重矩阵，用于在宽流和窄流之间进行转换：

预映射矩阵：从宽流中读取信息，并将其压缩为尺寸 C。
后映射矩阵：将计算层的窄输出，再扩展回宽流。
残差映射矩阵：直接作用于残差路径上，其目的是在信号向前传递时，混合 n 条并行流之间的信息。

从根本上说，通过这种方法，HC成功地提升了网络的容量，使残差流更具表达力。残差映射矩阵现在不仅允许信号无阻碍地通过，还使得不同通道维度之间能够发生交互。这使得模型能够在多个并行的流中维持更丰富的内部表示，同时又不增加主计算层的运算成本。

2.3 超连接（HC）的缺陷

然而，现实情况是，尽管HC在理论上看起来很美，但当你试图将其扩展到当前大语言模型（LLM）那样的规模时，它会暴露出几个致命的缺陷：

数学上的不稳定性：那个残差映射矩阵虽然表达力强，但却破坏了至关重要的恒等映射属性。因为它可以学习任何数值，所以无法再完美地保持原始信号。一个微小的特征值在一层中被放大，在穿过五十层后就会呈指数级累积。DeepSeek实际发现，信号能被放大到令人震惊的3000倍，这会导致梯度的剧烈波动和训练损失的大幅飙升。
硬件瓶颈：将流宽度扩展 n 倍，意味着内存硬件在每一步都需要读写显著更多的数据。在现代AI训练中，内存访问（而非实际计算）往往才是最大的瓶颈，这种额外的开销会严重拖慢训练吞吐量，并使GPU内存占用量急剧攀升。

所以，摆在DeepSeek研究人员面前的是一个非常具体的问题：如何才能在保留HC范式中表达力强的宽流优势的同时，不破坏网络的数学稳定性，又不至于让GPU的内存和I/O操作饱和？

接下来，我们来看看他们是如何解决这个问题的。

3. 解决方案：流形约束超连接（mHC）

为了解决上述HC存在的两大难题，DeepSeek团队提出了一套改进的框架，他们称之为流形约束超连接，简称mHC。

这个方案可以拆解为两个独立的部分。首先，他们必须修正底层的数学机制，以防止信号爆炸或消失。其次，他们需要进行一些硬核的系统工程优化，以确保这个数学方案能够在现代GPU上高效运行。下面我们就来逐一拆解他们是如何做到这两点的。

3.1 修正数学：伯克霍夫多面体

这里的数学巧思在于，他们抓住了那个有问题的、不受约束的残差映射矩阵，并用数学方法强制其行为受限。具体做法是，将这个矩阵投影到一个特定的数学空间——伯克霍夫多面体上。

用更通俗的话说，他们把一个矩阵约束成了双随机矩阵。

如果对这个术语不太熟悉，可以这么理解：双随机矩阵就是一个所有元素都非负，并且每一行元素之和都恰好为1，同时每一列元素之和也恰好为1的矩阵。

（来源：作者）
双随机矩阵的示意图

通过强制残差矩阵采用这种特定形式，作者们确保了以下几个极具价值的数学性质：

范数保持（告别信号爆炸）：从数学上看，双随机矩阵的谱范数被严格限制为1，不多也不少。这意味着，无论这个矩阵如何学习，它在物理上都无法放大或缩小梯度。这从根本上解决了信号爆炸或消失的问题。
组合封闭性（深层稳定性）：一个双随机矩阵乘以另一个双随机矩阵，其结果仍然是一个双随机矩阵。这确保了即使叠加五十层或一百层这样的矩阵，信号依然能保持完美的稳定。
完美混合：在几何上，这种矩阵的作用相当于多种信息混合方式的组合。这意味着，它可以在 n 条并行流之间混合信息，而不会人为地放大信号的整体“能量”。

为了在训练过程中将一个普通矩阵转变成双随机矩阵，研究人员使用了一种名为Sinkhorn-Knopp算法的方法（Sinkhorn & Knopp, 1967）⁵。在前向传播过程中，该算法首先使矩阵中的所有元素变为正数，然后通过迭代的方式，反复调整行和列的数值，直到每行每列的和都为1。

3.2 修复硬件：硬核系统工程

在纸上解决数学问题固然不错，但运行所有这些宽流和迭代的Sinkhorn-Knopp计算，对于GPU内存来说简直就是一场噩梦。为了解决这个问题，DeepSeek团队实施了一些激进的底层基础设施优化：

内核融合：他们不再逐个地运行数学运算（这会不断读写GPU内存），而是使用一个名为TileLang的框架（Wang 等人，2025）⁶，编写了自定义的统一GPU内核。这使得他们能够将矩阵乘法、归一化以及Sinkhorn-Knopp迭代融合成单个操作，从而绕过了内存开销。
选择性重计算：扩展残差流意味着，在训练的反向传播过程中，通常需要保存大量的中间数据。实际上，这会立刻导致GPU内存耗尽。为了解决这个问题，他们在前向传播完成后就丢弃了这些中间数据。只保留最必要的输入，然后在反向传播过程中，使用那些统一内核动态地重新快速计算出轻量级的mHC。
通信重叠：在分布式训练系统（多块GPU）中，更宽的流会导致跨GPU通信时产生延迟。因此，他们不得不调整调度系统。通过优化，他们将宽流带来的通信延迟，与注意力层的繁重计算重叠执行，使得mHC的任何部分都不会成为训练中的限速步骤。

最终，所有这些系统工程上的努力都得到了回报。尽管增加了额外的数学运算并使用了更宽的流，但与标准的基线模型相比，mHC在训练过程中仅仅增加了6.7%的时间开销。

4. 效果如何：真的有效吗？

为了验证所有这些数学和系统工程上的努力是否真的物有所值，DeepSeek团队对mHC进行了测试。他们基于DeepSeek-V3架构（DeepSeek-Ai 等人，2024）⁴训练了几个语言模型，规模最大达到270亿参数。他们将新的mHC框架与标准的残差基线以及无约束、不稳定的HC方案进行了直接比较。让我们来看看实验的结果如何。

4.1 恢复训练稳定性

引入mHC的主要动机，是为了缓解HC中因无约束映射矩阵而导致的训练行为不稳定的问题。如下图所示，标准HC模型的梯度范数（图b）在大约12000步时开始出现剧烈的波动和失稳，而这正好是HC和mHC的损失曲线开始分道扬镳的时刻（图a）。由于mHC带来了更平滑、更稳定的梯度范数，该模型最终实现了比原始HC更低的训练损失。

（来源：改编自 Xie 等人，2025，图5）
图a：三种不同模型变体的训练损失 vs 训练步数。展示了mHC模型实现了最低的训练损失。
图b：梯度范数 vs 训练步数。展示了原始HC高度不稳定的梯度范数，与mHC平滑且可预测的梯度范数之间的对比。

4.2 提升下游性能

一个稳定的模型只有在它真正变“聪明”时才有用。为了证明这一点，作者们在多个下游基准测试上评估了270亿参数模型，包括MATH、MMLU，以及BBH和DROP这样的推理任务。结果不出所料，启用mHC的模型在所有基准测试上都表现出一致的性能提升，尤其是在大部分基准测试上超越了无约束的HC。推理基准测试的性能提升尤为显著，这表明更宽的残差流确实有助于构建更具表达力的模型。

（来源：改编自 Xie 等人，2025，表4）
除了MATH基准测试外，mHC在各项测试中均超越了基线（普通残差连接）和无约束的HC。

4.3 可预测且稳健的扩展性

对于任何一种新的深度学习架构范式来说，一个重要的测试是，它是否遵循已有的缩放法则。有些在30亿参数模型上有效的设计，在270亿参数的模型上可能会失效甚至适得其反。为确保这一点，作者绘制了30亿、90亿和240亿参数模型的计算缩放曲线。下图清晰地表明，相对损失改进在所有规模上都得以保持，这验证了mHC是一种可扩展的架构升级方案。

（来源：改编自 Xie 等人，2025，图6 (a)）
左图：mHC与基线的绝对损失差 vs 模型规模（以FLOPs计）。
右图：mHC与基线的相对损失差 vs 模型规模（以FLOPs计）。

4.4 驯服信号爆炸

作为最终测试，作者还直接验证了他们的一项主张：当信号堆叠多层时，不应该被任意放大。对于标准的无约束HC，我们看到信号可以被放大3000倍，这完全破坏了训练中的梯度。为了确认mHC是否直接解决了这个问题，DeepSeek逐层追踪了模型中的信号传播动态，结果符合预期。由于采用了双随机映射矩阵，整个模型的信号增益被限制在1.6左右，这证明了即使在多层叠加后，信号仍然保持稳定。

（来源：改编自 Xie 等人，2025，图7）
图a：信号增益因子 vs 层索引（单层）。图表显示，在多个不同层中几乎没有增益，表明双随机矩阵成功抑制了信号爆炸。
图b：信号增益因子 vs 层索引（累积）。图表显示，当信号累积时，到第20层时增益因子约为1.6，这对于训练来说仍然是健康且有界的。

5. 不足之处：“槽点”与权衡取舍

在结束之前，我们有必要讨论一下mHC的一些缺陷，毕竟任何工程选择都伴随着权衡。虽然mHC是解决超连接不稳定性问题的良方，但它也带来了一些值得注意的注意事项。

6.7%的时间税：DeepSeek自豪地（也确实应该自豪）指出，他们的基础设施优化将训练时间开销降低到了仅比基线模型高6.7%。虽然这个数字听起来很低，但在训练一个参数规模达上千亿的大模型时，GPU算力成本动辄数千万美元——6.7%的训练时间增加，换算下来就是一笔非常真实且巨大的财务开销。你是在为那额外的表示能力支付溢价。
巨大的工程复杂性：你不可能简单地打开一个标准的PyTorch脚本，用几行代码直接实现它，然后就期望能得到同样高效的结果。为了让mHC变得可行，DeepSeek团队不得不编写定制的、底层的融合GPU内核（使用TileLang），手动管理内存，并修改他们的流水线调度。这大大提高了准入门槛。对于没有专职基础设施工程师的小团队或研究者来说，高效地实现mHC将会是一项巨大的工程开销。
数学上的近似：在理论上，Sinkhorn-Knopp算法可以将残差映射矩阵变成完美的双随机矩阵。然而，要得到一个完美的结果，算法理论上需要运行无限次迭代。为了保持速度，研究人员将其限制在20次迭代。由于这种近似，矩阵在实践中并非数学上的完美。如果它是完美的，我们会观察到信号增益恰好为1.0，但事实并非如此。信号增益会累积到大约1.6左右。在这个规模下，它绝对是有界且安全的，但对于更大的模型（当前的大语言模型已超过5000亿参数），这种近似可能会离理想状态更远。

6. 结论：最终思考与可采纳性

归根结底，DeepSeek的“mHC: Manifold-Constrained Hyper-Connections”这篇论文，是一份分量十足的研究成果。它完美地展现了今天要真正推动基础模型的边界需要什么：既要具备深厚的纯数学功底来诊断理论缺陷，又需要硬核的系统工程来确保解决方案能在物理芯片上实际运行并具备可行性。

标准残差连接在过去十年里功不可没，但当我们迈入万亿参数时代，我们需要能够承载更丰富、更宽泛表示的信号通路，同时又不影响网络的稳定性。DeepSeek展示了实现更宽、更具代表性通路的一种方法，并在一个曾被视作不变的架构环节上实现了创新。

至于可采纳性，我们是否会看到mHC被迅速接受和广泛实施？很可能不会。由于对定制GPU内核和复杂流水线调度的重度依赖，它的门槛相当高，可能需要一些时间才能被抽象成整个社区都能轻松使用的即插即用模块。不过，DeepSeek已经在他们自己极具竞争力的模型系列中，证明了mHC在大规模应用中的有效性。

考虑到在推理基准测试和训练稳定性方面的明显改进，可以期待资源充足的AI实验室会开始在其下一代架构中采纳和试验mHC。这是一个重大的进步，也证明了在最基础的神经网络构建模块上，依然存在着广阔的创新空间。

7. 参考文献

Xie, Z., Wei, Y., Cao, H., et al. (2025). mHC: Manifold-Constrained Hyper-Connections. DeepSeek-AI. arXiv preprint arXiv:2512.24880.
He, K., Zhang, S., Ren, S., & Sun, J. (2016). Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 770-778).
Zhu, D., Huang, H., Huang, Z., et al. (2024). Hyper-connections. arXiv preprint arXiv:2409.19606. (提出无约束HC的原始字节跳动论文).
Liu, A., Feng, B., Xue, B., et al. (2024). DeepSeek-V3 Technical Report. arXiv preprint arXiv:2412.19437.
Sinkhorn, R., & Knopp, P. (1967). Concerning nonnegative matrices and doubly stochastic matrices. Pacific Journal of Mathematics, 21(2), 343-348. (矩阵投影的基础数学).
Wang, L., Cheng, Y., Shi, Y., et al. (2025). TileLang: A composable tiled programming model for AI systems. arXiv preprint arXiv:2504.17577. (用于mHC定制GPU内核融合的框架).

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：为何十年前残差连接仍支撑AI且成隐患要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://www.bestblogs.dev/article/f4d1be4c?utm_source=rss&utm_medium=feed&utm_campaign=resources&entry=rss_article_item

上一篇：特朗普叫停Claude Fable 5与Mythos 5 AI专家称中国是全人类希望

下一篇：扩展表演性失调假说全面解析与核心观点

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。