Tensor Parallelism - 张量并行
张量并行是将单个张量(如矩阵乘法)的运算切分到多个设备上同时计算的策略,用于加速超大模型的训练和推理,是GPT-4等大模型背后的关键并行技术。
一句话解释
张量并行(Tensor Parallelism)是一种将神经网络中某一层的权重矩阵或中间激活张量切割成多个分片,分别放在不同GPU上同时计算,最后再合并结果的并行策略。
为什么会被关注
随着GPT-3、Llama等大模型参数突破百亿甚至千亿,单张GPU已无法承载完整的模型权重。张量并行能在不增加显存总量需求的前提下,将计算负载均匀分到多张卡上,大幅降低单卡显存压力。
同时,它与其他并行技术(数据并行、流水线并行)互补,成为构建万卡集群训练系统的关键组件。业界主流框架如Megatron-LM、DeepSpeed和PyTorch FSDP都内置了张量并行支持。
核心逻辑
核心思路是将矩阵乘法(如注意力机制中的QKV运算)按行或按列切分。例如,在Transformer的前馈网络层中,将权重矩阵W切分为两个子矩阵W1和W2,分别放在两张GPU上计算,每张卡只负责一半输出维度的计算。
计算过程中需要引入通信操作:前向传播时对部分结果进行求和(All-Reduce),反向传播时同步梯度。这种“计算-通信-计算”的流水线设计使得整体吞吐量近似线性扩展,但通信开销会随切分数量增加而上升。
常见场景
大语言模型(LLM)预训练:当模型参数量超过单卡显存(如A100 80GB)时,必须使用张量并行把每一层的参数分布到8张甚至更多卡上。典型配置是单节点内用NVLink高速互联的GPU组内做张量并行。
大模型推理服务:即使模型已经训练完成,推理时单卡也可能放不下完整参数。张量并行可将模型拆分到多卡上并行生成token,降低首token延迟。许多云推理服务(如vLLM、TensorRT-LLM)都集成了该策略。
容易混淆的点
张量并行常与模型并行(Model Parallelism)混用。严格来说,模型并行是广义概念,包括层间并行(流水线并行)和层内并行(张量并行)。张量并行特指对单个张量运算的切分,而非将不同层分配到不同设备。
另一个易混淆点是数据并行(Data Parallelism)。数据并行是复制完整模型到多卡,每卡处理不同batch;而张量并行是分割模型本身。两者可叠加使用:数据并行处理batch维度,张量并行处理模型内部维度。
本文内容用于 AI 热词解释和概念整理,仅供学习和理解参考。若涉及表述偏差或内容修正,欢迎联系站点进行更新。
相关热词Token Healing通过修复分词边界导致的概率偏差,提升模型生成文本的连贯性与准确性,是减少词汇分裂错误的重要方法。
Context Rot(上下文旋转)指AI模型在长对话或多轮任务中,逐渐丢失或混淆早期关键信息,导致回答质量下降的现象。它类似人类的短期记忆衰减,但成因更复杂:受限于固定上下文窗口,以及模型对远距离信息的注意力衰减。了解Context Rot有助于优化提示词设计和选择更合适的模型。
推理蒸馏(Reasoning Distillation)是一种特殊的模型蒸馏技术,它不止迁移知识答案,更侧重于将大模型(如GPT-4)的推理过程、思维链和逻辑步骤“压缩”到小模型中,使其在资源受限环境下仍能具备复杂的多步推理能力。这项技术正被广泛应用于端侧智能、实时问答和低成本AI部署。
Model Merging(模型合并)是将两个或多个独立训练的 AI 模型的参数或架构进行组合,生成一个更强、更稳定且无需额外大规模训练的新模型。它区别于传统的模型集成(Ensemble)和模型蒸馏,能在保持推理效率的同时融合多个模型的知识。
Model Spec 是一套定义 AI 模型(如大语言模型)在生成内容时应遵守的行为准则、输出格式和安全约束的技术规范,帮助开发者与用户理解模型的能力边界。
Superalignment(超级对齐)是OpenAI提出的研究方向,目标是在未来出现比人类更聪明的AI系统时,仍能确保其行为符合人类的意图和价值观。它通过可扩展的监督、自动化对齐等技术,解决AI控制难题。

