面包屑图标 当前位置: 首页
AI热词解释
热词解释详情

Model Sharding:将大模型“切块”训练的分布式技术

本次查询Model ShardingAI 热词解释结果
中文解释模型分片
热词类型分布式训练技术
常见场景大模型训练与推理
AI 热词频道
AI 热词频道更新时间:2026-06-01

Model Sharding(模型分片)是一种分布式训练技术,通过将模型参数、梯度或优化器状态均匀切分到多个GPU上并行计算,大幅降低单卡显存占用,是当前训练百亿、千亿参数大模型的核心方案之一。

一句话解释

Model Sharding(模型分片)将大语言模型的参数按层或张量切分成多个小块,分散存储在多个GPU上,各GPU只计算自己负责的部分,通过通信交换中间结果完成整体训练或推理。

为什么会被关注

随着GPT-4、Llama 3等模型参数规模突破百亿甚至千亿,单块GPU显存(通常24~80GB)完全装不下整个模型。模型分片让训练超大模型成为可能,同时降低了单卡显存需求,使得更多开发者能用多卡集群进行模型训练和微调。

核心逻辑

核心是“切分+通信”。将模型参数、梯度或优化器状态均匀分配到多个设备,每个设备仅持有自己的分片并计算对应部分;前向与反向传播时通过All-Reduce等通信操作汇总梯度,从而保持全局模型一致性。典型实现如PyTorch FSDP和DeepSpeed ZeRO,它们自动完成分片与同步。

常见场景

常用于大模型预训练(如训练130亿参数模型需8卡A100)、单机多卡微调(如用4张RTX 4090微调Llama 2-70B),以及推理时模型并行(将大模型分片到多GPU加载以降低单卡显存压力)。也可结合数据并行进一步提升吞吐。

容易混淆的点

容易与“数据并行”混淆:数据并行是每张卡复制完整模型,分batch计算不同数据;模型分片则是将模型本身切分,每卡只存一部分。相比数据并行,模型分片显存节约更明显,但通信开销更大。也不同于“流水线并行”(按模型层分段),模型分片可跨层任意分配,灵活性更高。

来源:AI 热词解释频道整理
Model Sharding 模型分片 分布式训练 大模型 训练优化
上一篇:Serving Stack
内容声明

本文内容用于 AI 热词解释和概念整理,仅供学习和理解参考。若涉及表述偏差或内容修正,欢迎联系站点进行更新。

相关热词
大模型更新:2026-05-14
大模型:AI的“全能大脑”,为何能掀起技术革命?

大模型是指通过在海量数据上训练、拥有庞大参数规模的深度学习模型,其核心能力在于理解和生成人类语言及各类内容,是当前生成式AI(如ChatGPT)的技术基石。