Expert Parallelism:专家并行
Expert Parallelism 是一种针对混合专家模型(MoE)设计的分布式并行策略,通过将不同专家网络分配到不同设备,实现稀疏激活下的高效计算与显存管理,是大规模MoE训练的关键技术。
一句话解释
Expert Parallelism(专家并行)是将大模型里的多个“专家”子网络分配到不同GPU上,每次计算只激活部分专家,从而大幅降低单卡显存占用和通信量。
为什么会被关注
随着GPT-4、Mixtral 8×7B等MoE模型涌现,模型参数量动辄万亿级别,传统的张量并行或流水线并行已无法满足显存与带宽需求。专家并行通过稀疏激活将计算分散,使千亿参数模型能在数百张GPU上稳定训练,成为工业界标配。
同时,Expert Parallelism还能与数据并行、流水线并行叠加使用,形成3D或4D混合并行,极大提升训练吞吐,因此被各大AI公司(如Google、Meta、DeepSeek)广泛研究并部署。
核心逻辑
在MoE模型中,每个token会通过门控网络选择少数专家(如Top-2)。Expert Parallelism把不同专家完整副本放置在不同设备上,各设备只处理分配到自己的专家计算。
关键挑战在于路由后的All-to-All通信:每个设备需将token发送到对应专家所在设备,并接收其他设备发来的token计算结果。这需要高效通信调度和负载均衡算法防止某些专家过载。
常见场景
训练拥有数百个专家的千亿参数MoE语言模型(如Switch Transformer、GShard),每张GPU承载2~4个专家,结合数据并行处理不同的微批次数据。
推理阶段也可应用:当模型规模超出单卡显存,但推理延迟要求不高时,专家并行可将专家分布在多卡,每个请求只会路由到少量专家,实现大模型低成本部署。
容易混淆的点
与“模型并行(张量并行)”混淆:张量并行是将单个层参数拆分到多卡,Expert Parallelism则是将完整专家副本分配,不拆分专家内部权重。
与“数据并行”混淆:数据并行是每个设备持有完整模型、处理不同数据,而专家并行中每个设备只持有部分专家,两者常结合使用。
与“流水线并行”的不同:流水线并行按层切分,专家并行按专家单元切分,适用于MoE结构而非普通密集模型。
本文内容用于 AI 热词解释和概念整理,仅供学习和理解参考。若涉及表述偏差或内容修正,欢迎联系站点进行更新。
相关热词MoE(Mixture of Experts,混合专家模型)是一种神经网络架构。其核心思想是将一个大模型拆分成多个“专家”子网络,每个任务只激活并使用其中一小部分专家进行计算。这种方法能以远低于增加参数总量的成本,显著提升模型容量和性能,是实现万亿参数以上超大模型的关键路径之一。

