百度百舸LoongForge DP方案提升多模态模型训练效率近10%

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

业界动态

百度百舸LoongForge DP方案提升多模态模型训练效率近10%

热心网友时间：2026-05-24

转载

在大语言模型和多模态模型的训练战场上，数据并行（Data Parallel, DP）技术是扩展算力的基石，但一个长期被忽视的“暗伤”正制约着效率的极限——那就是负载不均。当部分计算节点“忙得冒烟”，而其他节点却在“悠闲等待”时，整个集群的性能就会被拖累。最近，百度百舸推出的LoongForge DP负载均衡优化方案，正是瞄准了这一核心痛点，通过精巧的技术设计，在超大规模训练场景下实现了近10%的性能提升，为行业提供了一个值得关注的解题思路。

百度百舸发布 LoongForge DP负载均衡方案多模态模型训练效率提升近10%

行业痛点：DP负载不均成为训练效率“拦路虎”

如今，分布式训练普遍采用数据并行机制：将数据切片分发给各个计算节点，各自完成前向和反向计算后，再通过AllReduce操作同步梯度。这套机制有个天然的“阿喀琉斯之踵”——木桶效应。任何一个节点的计算延迟，都会在同步环节被放大，导致所有节点都必须等待最慢的那一个，产生大量无效的空闲时间。

传统的解决方案，比如固定长度的样本打包（packing）策略，试图从Token数量上实现均衡。但这招其实治标不治本。关键在于，Transformer架构中的注意力机制，其计算复杂度与序列长度呈二次方关系。这意味着，即便两个节点处理的Token总数一样，只要它们处理的样本长度分布不同——比如一个节点全是长文本，另一个节点多是短文本——实际的计算开销就会天差地别。

到了多模态模型训练，情况就更复杂了。图像分辨率高低、图片数量多寡、视频帧数多少，这些因素都会导致视觉编码器和文本解码器这两个核心模块同时出现负载波动。双重的不均衡叠加在一起，让分布式训练的瓶颈问题雪上加霜。

核心创新：两大阶段破解负载均衡难题

LoongForge DP方案的巧妙之处，在于它采用了一套两阶段的在线优化策略，无缝嵌入训练流程，无需任何繁琐的离线预处理。

第一阶段是热身建模。方案通过在线实时性能探测，动态采集各个DP节点的真实计算耗时和样本特征数据。基于这些数据，它能自适应地构建一个与当前模型计算特性高度匹配的开销估计模型。这个模型不简单，它能同时精准刻画注意力层的二次方复杂度开销、线性层的开销，乃至一些固定开销，从而实现对不同样本组合真实计算成本的精准拟合。

有了这个精准的“成本计算器”，就进入了第二阶段：在线自适应重分配。系统会实时评估每个DP节点上待训练样本的计算压力，然后动态地进行跨节点的样本重新调度。其优化目标非常直接：最小化所有节点中单次迭代的最大总计算开销，从而最大限度地抹平节点间的耗时差异，让大家都“忙”得差不多。

四大特性：易用性与性能兼顾

为了让方案真正好用，百度百舸为其注入了四个核心特性：

多模态双重负载均衡： 不仅针对LLM的文本解码器，也同时适配ViT等视觉编码器，实现文本和视觉维度的全栈负载优化。

迭代级全局均衡： 支持跨越多个微批次（micro-batch）进行负载持续追踪与优化，确保在整个迭代周期内实现全局最优的负载分布，而非仅仅局部最优。

智能触发机制： 系统具备判断力，会自动跳过那些收益不明显的重排操作，避免引发不必要的通信开销和资源浪费。

零额外时延： 通过异步流水线设计，将数据重排的开销完全隐藏在其他计算过程中，从而确保不会给训练带来任何额外的、可感知的时延增量。

在易用性上，该方案支持开箱即用，全面兼容InternVL、Qwen2-VL/2.5-VL/3-VL等主流多模态模型，覆盖图像、视频全场景训练。用户无需修改模型训练代码，仅需通过简单的命令行参数即可一键启用，大幅降低了使用门槛。

实验验证：超大规模场景收益显著

效果究竟如何？还得用数据说话。在固定未开启All-Reduce通信重叠优化的对照实验条件下，技术团队测试了不同DP并行规模的表现：

在未开启DP负载均衡机制时，随着并行规模从DP32扩展到DP512，模型训练的整体吞吐性能（TGS）持续下降，尤其在从DP256扩展到DP512的阶段，性能退化尤为明显。

而开启LoongForge DP负载均衡机制后，在所有DP并行规模下，训练吞吐水平均获得了明显提升。并且，并行规模越大，优化收益越显著。具体来看，在DP256规模下性能提升约3.3%，而在DP512的超大规模场景下，性能提升幅度接近10%。这个数字对于动辄千卡、万卡集群的训练任务来说，意味着可观的成本节约和时间收益。