字节跳动AI训练新突破：渐进式学习让模型更高效稳定

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

字节跳动AI训练新突破：渐进式学习让模型更高效稳定

热心网友时间：2026-05-12

转载

训练大型语言模型的成本问题，一直是制约AI技术普及与创新的核心瓶颈。动辄数百万美元的计算投入与长达数月的训练周期，令众多研究机构与企业难以承受。然而，字节跳动与北京大学联合研究团队近期提出了一项突破性方案——借鉴生物生长的智慧，让AI模型实现“渐进式”扩展，而非一次性构建完成。这一名为SPARKLING（信号保持与对称性破坏的宽度渐进式学习）的新范式，有望从根本上重塑大模型的训练经济性与效率。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

ByteDance研究突破：让AI训练像养花一样

该研究成果已于2026年2月正式发表于arXiv预印本平台。其核心理念极具启发性：与其耗费巨资直接训练一个参数庞大的终极模型，不如先高效训练一个较小规模的模型，随后在训练过程中，令其像植物生长般逐步“增宽”至目标尺寸。这为降低大模型训练门槛提供了全新的技术路径。

传统的大模型训练方式，如同一次性建造摩天大楼，所有环节必须同步到位，资源消耗集中。而SPARKLING代表的渐进式学习策略，则类似于先建造一栋功能完备的小型建筑，在投入使用的同时，再根据需求稳健地向上、向外扩建。实验证明，这种方法不仅能显著节省高达35%的训练成本，更在多项下游任务评测中，使最终模型的性能表现超越了传统方法训练的同等规模模型。

事实上，模型扩展的思想在AI领域早有探索。类似于为长大的植物更换更大的花盆，“深度扩展”（增加网络层数）已有较多研究。然而，“宽度扩展”（增加每层神经元的数量）却长期面临严峻挑战，被视为一个技术难题。

一、AI模型“宽度扩展”的核心挑战是什么

要理解SPARKLING方法的精妙，首先需厘清为何模型“增宽”如此困难。这绝非简单复制神经元参数即可，其背后存在两大根本性障碍：信号失真与对称性锁定。

可以将一个训练良好的AI模型，类比为一个配合默契的交响乐团。信号失真问题，就好比在乐团演奏时，突然为某组乐器接入一个功率不匹配的放大器——原本和谐平衡的声场被瞬间破坏，输出变得扭曲或模糊。在神经网络中，每一层传递的信号强度均处于精妙平衡状态，贸然插入新的神经元，会严重干扰这种平衡，导致训练效率急剧下降甚至失效。

对称性锁定问题则更为隐蔽。当通过复制现有神经元来扩展网络宽度时，这些新加入的神经元如同“克隆体”，它们拥有完全相同的初始参数和优化历史。在后续训练中，它们接收完全相同的梯度更新，因此其行为模式始终一致，无法学习到多样化的特征表征。这使得新增的计算资源沦为无效的“摆设”，无法提升模型的表达能力。

已有研究表明，传统的简单扩展方法在训练初期可能看似有效，但随着训练深入，信号失真与对称性锁定的负面影响会逐渐凸显，最终导致扩展后的模型性能反而不如扩展前的基础模型。这好比一栋未经周密设计就仓促扩建的房屋，面积虽增，结构安全与居住体验却大打折扣。

二、SPARKLING的解决方案：精准的信号控制与对称性破除

针对上述两大难题，SPARKLING框架提出了两套精准的解决方案：信号保持机制与对称性破坏策略。其目标，是成为一位能指挥乐团平稳融入新乐手而不失和谐的音乐总监。

信号保持机制，旨在维持网络内部信息流的稳定性。研究团队通过严谨的数学分析发现，网络每一层对输入信号的强度（通常以均方根量级衡量）存在一个最优范围。他们的关键创新在于，推导出了一套精确的初始化缩放公式。无论是对输出维度（增加本层神经元数）还是输入维度（增加前一层信号维度）进行扩展，都能计算出新增参数应如何初始化，从而确保扩展前后信号强度始终稳定在最优区间，有效避免了“音量失调”问题。

对称性破坏策略，则专门用于打破“克隆神经元”的僵局，促使它们快速走向功能分化。SPARKLING设计了一套巧妙的组合拳：首先是“优化器状态重置”，即清空新增神经元对应的优化器历史动量等信息，让它们从零开始积累更新方向；其次是“非对称学习率预热”，为新增部分设定与原有部分不同的学习率调整计划，引导它们探索不同的参数优化路径。这就如同为双胞胎安排不同的学习路径与导师，最终培养出各具特色的专业能力。

三、实验验证：显著的成本节省与性能优势

任何理论创新都需要坚实的实验支撑。研究团队选择了结构复杂的混合专家模型作为测试床，进行了严格的对比实验。

他们首先训练了一个包含5亿活跃参数的基础模型，在训练进程过半时，运用SPARKLING方法将其网络宽度扩展一倍，随后继续训练至完成。评测结果极具说服力：在涵盖常识推理、阅读理解、数学计算等12项多样化任务的测试集上，通过SPARKLING“生长”而来的扩展模型，其综合性能在绝大多数任务上均达到甚至超越了从头开始训练的、同等规模的“巨无霸”模型。

成本效益的数据更为直观。与传统训练方法所需的1800万亿次浮点运算相比，SPARKLING方法仅消耗1170万亿次，实现了35%的计算资源节省。训练总时长也从209小时大幅缩短至140小时，效率提升显著。此外，该方法在AdamW、Muon等不同优化器下均表现稳定，展现了良好的算法通用性与鲁棒性。

另一个关键优势体现在扩展后的“性能恢复速度”上。传统方法扩展后，模型性能通常会出现剧烈震荡与明显下滑，需要较长的“恢复期”才能重回正轨。而采用SPARKLING方法扩展的模型，能够几乎无缝地适应新的结构，性能曲线平稳过渡，这极大地提升了训练流程的可控性与整体效率。

四、理论基础：从“经验技巧”迈向“严谨科学”

SPARKLING并非基于直觉的工程技巧，其背后有着深厚的数学与优化理论根基。研究团队从神经网络在高维空间中的统计特性出发，严格推导出了实现信号保持所需满足的数学条件。对于对称性锁定问题，他们则从优化动力学的视角，深入分析了参数与优化器状态双重对称所导致的梯度更新停滞现象，并据此设计了针对性的破解机制。

这种“理论先行，实验验证”的研究范式本身具有重要意义。它标志着大模型训练领域的一部分工作，正从依赖大量试错的“经验炼金术”阶段，逐步转向有坚实理论指导的“可解释工程科学”阶段。