大模型架构的下半场
深度扩展的隐忧:当层数增长遇上停滞的通信
过去十年,深度学习领域取得进展的方式出奇地一致:什么都往大了整。更多参数、更多数据、更长上下文。而且确实管用:损失在降低,能力在增长,扩展定律精确地指引着研究团队还需要投入多少资源。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
但不同的扩展方向,其内涵和难度天差地别。序列长度的扩展需要真正的创新,也确实催生了一整套机制研究和系统工程。数据的扩展则直截了当:数据越多,损失越低。相比之下,让模型变得更宽、更深,看起来似乎和数据扩展一样简单直接。
然而,宽度和深度真的在同等地发挥作用吗?
答案是否定的。深度在数量上增长了,但在质量上却没有。层与层之间的通信机制,在过去近十年里几乎没有发生根本性的变化。这一点至关重要,它不仅关乎网络深度本身,更揭示了研究团队在设计神经网络架构时的一个集体盲区。
研究者们花了十年时间去扩展层内的计算能力,却忘了同步扩展层间的通信能力。这件事,亟需改变。

上半场
要看清上半场做对了什么,最好的方法就是审视哪些维度被成功地扩展了,以及是如何做到的。
先看序列长度。早期的Transformer只能处理几百个token。要达到128K甚至更长,需要多个方向上的持续创新:新的注意力模式(稀疏、线性、混合)、系统工程(如FlashAttention)、位置编码的进步(如RoPE扩展)。研究者和工程师们共同建造了一整个生态,持续改进token之间的通信方式。回报是丰厚的,团队不仅能够处理极其长的文档,还为OpenAI-O1和DeepSeek-R1这类模型的长链推理能力奠定了坚实基础。这就是当团队认真投资于“信息在序列维度上的流动方式”时,所收获的斐然成果。

△现代LLM中的参数与数据规模迅速增长
参数和数据的扩展,则是最符合人类直觉的部分。从深度学习的最早期开始,每本教科书都在教授同一套配方:更多数据、更宽的层、更深的网络,自然带来更好的表征能力。从GPT-2的15亿参数到如今的数万亿规模,这套配方一直管用。这似乎说明,大模型团队不需要引入新机制,只需要持续拓展这些已被验证的方向。
只不过,对神经网络而言,“更宽”和“更深”往往并不是一回事。宽度的扩展是自然而然的:现代GPU天生擅长处理更宽的矩阵乘法,注意力机制的演进也越来越高效,这使得更宽的网络可以无缝接入现有架构。
而深度,则是另一个故事。模型确实变深了:从几十层加到上百层。但层间通信的核心机制,本质上还是ResNet在2015年引入的深度残差连接,即那个经典的“x + F(x)”。自它诞生以来,围绕它有过不少改良(如归一化位置、残差缩放、跨层连接),但没有任何改良真正取代过那个深度残差中“+”的决定性地位。
残差连接可以说是深度学习中最重要的基石之一。没有它,就没有上百层的Transformer,没有现代大语言模型,也没有所谓的扩展定律。但基础性方案有一个特点:它们有时会变得太过隐形,以至于没人再去质疑它到底是最优解,还是仅仅是探索出的第一个能用的方案。
打个比方,想象一个有特殊规则的传话游戏。在标准版本里,第1个人对第2个人耳语,第2个人再对第3个人耳语。传到第18个人时,消息早已面目全非。这就是没有残差连接的深层网络:每一层只能看到上一层的输出。
残差连接修复了这个问题:每个人在传达自己理解的同时,也把之前积累的原始信息原封不动地往下传。第3个人既能听到第2个人的新解读,也能听到之前的所有内容。原始信号始终被保留,它成为了不断壮大的合唱中的一个声部。
但问题来了:到了第152个人,你同时在听152个声音——原始信息加上151层叠加上去的内容,全部混在一句耳语里。理论上,前面那些人的声音依然存在,但它们已经被淹没了。如果第152个人需要知道第3个人具体说了什么,他得费力地从这首宏大的合唱声中把它挑出来。

△消息累加的传话游戏中,靠后的人依然难以分辨出所需的内容
通常而言,第152个人是做不到这一点的。
这就是信息稀释。每一层都面临两难:倘若该层贡献新信息,就可能会掩盖之前的内容;但若保守不动,则能保留之前层传过来的已有信息。在这种状况下,很多层学会了“保守不动”,它们几乎不往残差流里写入任何实质性的新东西。这样的深度网络在纸面上很深,实际上却很浅。团队堆了152层,但其中很多层却只学会了保持沉默。
这里的瓶颈不在于152层网络所需求的算力,而在于信息穿过这些层的通信能力。CPU的发展在几十年前就撞过同样的墙:处理器越来越快,直到内存带宽跟不上了,逼得整个行业转向缓存和通信优化。组织管理也一样:一群聪明人所能发挥出的创造力,也受限于他们之间的沟通与协作方式。深度学习正在经历自己的版本:十年来不断增强每一层的能力,而层与层之间的通道,始终是2015年那条“单车道公路”。
那么,有没有更好的机制?
配方
在本文所介绍的研究之前,已经有很多研究者注意到了深度瓶颈。多年来,修补方案越来越巧妙:例如获评CVPR最佳论文的DenseNet,它保留了每一层的输出,但代价是平方级的开销。使用可学习加权的方案,如DenseFormer、LIMe,降低了成本,但训练完成后权重就固定了,每个token、每套上下文都使用同样的权重,缺乏灵活性。
字节跳动的Hyper-Connections和DeepSeek的mHC另辟蹊径,它们把管道拓宽到N个通道,层间用混合矩阵连接,这相当于信息高速公路上同时多了好几条车道。但坏消息是,信息仍然在逐层流动,第152层没有办法直接回溯到第3层去获取信息。
彩云公司的MUDDFormer让混合每层输出这件事变成动态的,它会根据每个token的表征来生成权重。这在根本方向上是对的:从每一层汲取多少信息,本就应该取决于你正在处理的内容。但同样有个坏消息,第152层在决定从第3层汲取多少时,只依赖第152层本身的状态,它并不知道第3层实际包含了什么。它是在预测哪些层有用,而不是在真正“查看”。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
魏建军直言专属电动车平台难成气候 归元平台或成高端市场破局关键
归元战略:一场关于技术路线的“破局”宣言 长城汽车近期的“归元S技术发布会”上,董事长魏建军的发言可谓一针见血。他直接点破了行业里一个常见的“话术”:那些被部分车企反复强调的“专属电动车平台”,在现实竞争中可能是个伪命题。单一押注某条技术路线,非但难以构筑真正的国际竞争力,反而可能让企业作茧自缚。相
贵州无人机表演打造夜间经济新引擎
来源:中国新闻网 4月18日晚,贵阳的一场大型演艺活动,被一片璀璨的“星空”点亮。千架无人机腾空而起,以精准的编队变幻出绚丽图案,上演了一场科技与艺术深度交融的空中视觉盛宴,成为当晚最吸睛的亮点。 这场表演之所以备受瞩目,关键在于其背后的“全链条自主”。这是贵阳市低空产业发展有限公司首次完全依靠自有
Peaka
Peaka 数据集成平台是什么 把各种分散的数据源打通、整合到一个统一的视图里,这活儿听起来简单,做起来却常常让数据团队头疼不已。Peaka 数据集成平台瞄准的,正是这个痛点。简单来说,它是一款专门帮你将关系型 非关系型数据库、各类SaaS工具以及API接口,无缝整合到单一数据层的工具。你完全可以用
Linnk AI
Grasp Insights AI是什么 在信息过载的时代,高效地获取和理解核心内容,成了专业人士和学者们的一大痛点。由Linnk ai推出的Grasp Insights AI,正是为了解决这一问题而生的智能工具。它并非简单的文本翻译器,而是一个旨在优化整个信息处理流程的智能助手——从海量资料的初步
Watto AI
Watto AI是什么 说到提升企业沟通效率的智能工具,Watto AI是近期一个绕不开的名字。简单来说,这是一款由Watto公司开发的人工智能语音机器人。它的目标用户很明确:就是那些有潜在客户信息收集、自动化客服支持以及实现自然对话交互需求的企业。它的核心卖点在于,即便你完全没有编程背景,也能快速
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

