香港科大提出渐进式学习新方法提升深度神经网络训练稳定性

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

香港科大提出渐进式学习新方法提升深度神经网络训练稳定性

热心网友时间：2026-05-14

转载

人工智能训练常被视为充满复杂数学与庞大算力的领域，但其底层的一些核心挑战，其本质往往与人类学习的基本规律相通。一项由香港科技大学、萨里大学、香港大学及英伟达合作的研究，在2026年3月发布的预印本论文（arXiv:2603.05369v1）中，揭示了一个朴素而深刻的原理：让AI模型模仿人类“循序渐进”的学习方式，能显著提升其训练稳定性与最终性能。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

让AI模型训练更稳定：香港科大团队发现让深层网络

掌握任何复杂技能，无论是学习乐器还是精通运动，都遵循从分解动作到逐步整合的路径。若一开始就挑战高难度内容，结果往往是挫折与混乱。现代深度神经网络的结构如同高楼，由层层堆叠的处理单元构成。传统训练方法让所有网络层同时全力学习，看似高效，实则埋下了不稳定的隐患——底层基础尚未稳固，上层便开始复杂构建，整个学习过程易陷入混乱甚至崩溃，即业界常说的“训练不稳定性”。

研究团队提出的“渐进式残差预热”（Progressive Residual Warmup, ProRes）方法，其核心思想直观而巧妙：为何不让网络的每一层，依照从基础到复杂的自然顺序，依次加入学习过程呢？

一、传统深度神经网络训练面临的核心困境

要理解ProRes的价值，需先审视主流训练方法的局限。当前大多数先进模型，如各类大语言模型，都基于Transformer架构。可以将其想象为一个多层的精密信息处理流水线。

问题在于，传统训练让这条流水线上的所有“工位”从第一秒起就全速运转。这好比让新手与专家同时处理最核心的难题，协同混乱难以避免。更关键的是，由于所有层都在同步调整自身参数，底层输出的任何微小波动都会被上层逐级放大，形成恶性循环。当网络深度极大时，这种不稳定性会指数级加剧，导致训练过程难以收敛，甚至突然失效，严重影响模型开发效率。

二、“渐进式残差预热”：模拟人类学习顺序的AI训练策略

ProRes的解决方案优雅而高效。它为网络的每一层引入了一个随时间平滑变化的“贡献权重”，作用如同一个可控的音量旋钮。训练开始时，只有最底层的旋钮完全开启，负责接收和处理原始输入数据；其上各层的权重则处于接近零的状态。

随着训练推进，这些权重按照从底到顶的顺序，被缓慢而平滑地调高。第二层开始逐渐参与计算，待其输出相对稳定后，第三层才被激活，依此类推。这确保了每一层都是在接收到前一层已趋于稳定的“特征表示”之后，才开始自己的学习任务。整个过程，类似于先打好坚实的地基，再逐层向上建造稳固的房屋。

三、支撑创新方法的三大核心设计原理

这一设计之所以有效，背后有三条相互支撑的逻辑支柱。

首先是“恒等初始化”原则。 在训练初期，让上层网络近乎“透明”，信息几乎无损地通过。这为整个系统提供了一个稳定、可预测的起点，避免了从混乱初始化状态开始学习的窘境。

其次是“有界模型更新”。 通过有序控制各层的激活节奏，实质上约束了每次参数更新的幅度。这防止了训练初期因调整过于剧烈而导致的“梯度爆炸”或“损失尖峰”，让学习步伐始终稳健可控。

最后是“遵循依赖次序”。 深层网络天然存在层级功能依赖：浅层提取基础特征，深层组合复杂模式。ProRes强制学习过程遵循这一依赖关系，使得每一层都能在稳固的前置基础上构建功能，有效打破了传统方法中层间相互干扰、耦合学习的恶性循环。

四、大规模实验验证：性能与稳定性的双重提升

理论需要数据支撑。研究团队在从1.3亿到70亿参数的不同规模模型上，使用了高达5000亿token的数据进行广泛验证。结果令人信服：

在所有测试架构上，ProRes都带来了模型性能的稳定提升。尤其在原本 notoriously difficult to train（ notoriously difficult to train）的Post-LN架构上，改进最为显著。更重要的是，它几乎完全消除了训练过程中常见的“损失值剧烈波动”和“梯度异常”现象，使得训练曲线变得异常平滑。当网络深度从12层激增至120层时，传统方法的性能增益已近停滞，而采用ProRes的模型仍能从深度增加中持续获益，证明了其在训练超深神经网络方面的独特价值。

五、不同预热策略的细致对比与最优方案

研究并未止步于提出方法，还深入探索了何种“层激活时间表”最为有效。他们对比了线性、平方、平方根等多种预热节奏。

实验表明，简单的线性预热（即各层按深度比例依次线性激活）效果最好且最稳定。一个反面的对照实验极具说服力：当尝试让深层先激活、浅层后激活的“逆序”策略时，训练彻底失败。这强有力地证实了“从基础到复杂”这一学习顺序的不可逆性。同时激活所有层但缓慢调大权重的“全局预热”策略虽有改善，但效果远不及顺序激活，这说明“时机”和“顺序”在稳定训练中同等关键。

六、深入分析：训练动态的内在变化过程

为了透视ProRes生效的内在机制，研究者深入模型内部进行了动态分析。他们发现，传统训练中，信号在层间传递时会像滚雪球一样被异常放大（激活值爆炸），导致深层输入失控。而ProRes通过有序激活，将这种增长控制在线性、温和的范围内。

此外，通过分析各层输出特征的演化过程，他们观察到在ProRes训练下，网络表示的变化平滑而有序：浅层特征率先稳定下来，随后深层特征逐步定型。这种井然有序、层层递进的学习动态，是模型最终获得更高性能与更强泛化能力的根本原因。

七、广泛适用性验证：跨架构、跨任务的稳健表现

一项技术的实用性，很大程度上取决于其普适性。ProRes在这方面表现突出：

无论是在当前主流的Pre-LN架构，还是较老的Post-LN架构，或是DeepNorm等为深度网络设计的专用架构上，它均能带来一致的性能提升。同时，它对不同的参数初始化方法不敏感，在不同的训练数据集（如C4、ClimbMix）上也表现出稳定的改进效果。这意味着工程师和研究者可以轻松地将其集成到现有训练流程中，而无需担心兼容性问题。

下游任务评估进一步证实了其价值。经过ProRes训练的模型，在常识推理、阅读理解、数学问题求解等多个NLP基准测试上，都展现出了更强的泛化与推理能力。