官方揭秘DeepSeek-V3模型训练全流程
DeepSeek-V3拥有6710亿参数,每个token仅激活370亿,训练成本约557 6万美元。采用多头潜在注意力、无辅助损失负载均衡的混合专家架构及多token预测技术。性能在数学、编程等任务上逼近GPT-4o和Claude-3 5-Sonnet,成为目前最强的开源模型。
DeepSeek-V3 的官方技术报告现已正式公开,本文将深入解析这份报告的核心要点。如果你长期关注开源大模型,应该了解 DeepSeek 系列始终在挑战闭源模型的霸主地位,而 V3 版本更是将这一趋势推向了全新高度——6710 亿参数总量,每个令牌仅激活 370 亿参数,训练成本控制在 557.6 万美元,在数学、编程等领域的表现却逼近 GPT-4o 和 Claude-3.5-Sonnet。这究竟是如何实现的?接下来,我们将从架构设计、训练流程到性能评估逐一剖析。

论文地址:https://arxiv.org/abs/2412.19437
1. 论文背景:为何要研发 DeepSeek-V3?
近年来,大型语言模型的发展速度令人瞩目。在闭源阵营中,GPT-4o、Claude-3.5-Sonnet 表现抢眼;开源阵营里,DeepSeek 系列、LLaMA 系列也在奋力追赶。DeepSeek-V3 的定位十分清晰:进一步拉升开源模型的能力上限,缩小与闭源模型之间的差距,同时确保训练成本的经济性。具体而言,模型总参数量达 6710 亿,但每次处理令牌时仅激活 370 亿参数,这一设计天然降低了计算开销。核心目标非常直接:在性能上超越其他开源模型,在数学、编程等硬核领域接近闭源水平,而训练成本必须维持在“经济高效”的范畴内。
2. DeepSeek-V3 的架构:它的结构是怎样的?
架构基于 Transformer 框架,但引入了若干关键创新。下面逐一展开。
2.1 多头潜在注意力(MLA)
MLA 的核心作用是提升推理效率。它是如何实现的?通过低秩压缩来减少 KV 缓存的占用空间。打个比方:模型在处理长文本时需要记住大量“键-值”信息,如果全部原样存储,内存很快就会耗尽。MLA 将这些信息压缩到更小的空间中,仅保留最核心的部分,既节约内存又不会损害性能。这一设计在 DeepSeek-V2 中已得到验证,V3 直接沿用。
2.2 DeepSeekMoE:混合专家的优化策略
MoE 的核心思想是“多个专家分工协作”——每个令牌只激活部分专家。DeepSeek 团队在 MoE 方面进行了若干有趣改进:
- 无辅助损失的负载均衡:传统 MoE 容易导致“忙的忙死、闲的闲死”的问题,以往依赖增加辅助损失来均衡,但辅助损失会拖累模型性能。DeepSeek-V3 另辟蹊径——动态调整每个专家的偏置项以平衡负载,无需依赖辅助损失。当然,为防止单个序列内出现极端不平衡,还添加了一个极小的序列级辅助损失,但影响微乎其微。
- 节点限制路由:每个令牌最多仅发送至 4 个节点,从而降低训练时的通信开销,更充分地利用硬件资源。
- 无令牌丢弃:由于负载均衡效果出色,训练和推理阶段均无需丢弃令牌,效率更高。
2.3 多令牌预测(MTP)
传统语言模型每次只预测下一个令牌,而 DeepSeek-V3 能够同时预测未来两个令牌。其优势显而易见:第一,训练信号更加密集——同时预测多个令牌相当于为模型提供了更丰富的学习信号,提升了数据利用效率;第二,推理时可结合“推测解码”,每秒令牌生成速度(TPS)可提升至 1.8 倍。具体实现上,主模型负责预测下一个令牌,再增加一个 MTP 模块预测第二个令牌,训练时两个损失共同计算,推理时 MTP 模块可直接丢弃。实验表明,MTP 策略在大多数基准测试中均能提升性能,尤其在数学和编程任务上效果显著。
3. 训练过程:如何打造 DeepSeek-V3?
训练分为预训练、长上下文扩展和后训练三个阶段。总成本为 278.8 万 H800 GPU 小时,按每小时 2 美元计算,大约为 557.6 万美元。放眼当今行业,这一性价比相当突出。
3.1 预训练:为模型输送海量数据
- 数据:共 14.8 万亿个令牌,涵盖多种语言(以英语和中文为主),特别增加了数学和编程样本。数据处理方面,进行了去冗余和多样性保持,采用文档打包方法,但不使用跨样本注意力掩码。同时引入了填空策略(类似 DeepSeekCoder-V2),让模型学习上下文预测能力。
- 分词器:字节级 BPE,词表大小为 128K。优化了多语言压缩效率,新增了若干特殊令牌(如标点符号与换行符的组合),但为避免令牌边界偏差,训练时随机拆分了部分组合令牌。
- 超参数:61 层 Transformer,隐藏维度为 7168。MoE 层从第 4 层开始,每层包含 1 个共享专家和 256 个路由专家,每次激活 8 个路由专家。训练序列长度为 4K,批次大小从 3072 逐步增加至 15360。优化器采用 AdamW,学习率从 0 上升至 2.2×10⁻⁴ 再逐步衰减。
- 稳定性:整个预训练过程非常稳定,未出现不可恢复的 loss spike,也无需回滚。这一点在超大规模训练中实属难得。
3.2 长上下文扩展:让模型能够阅读长文本
目标是将上下文窗口从 4K 扩展至 128K。方法分两步:首先使用 YaRN 从 4K 扩展至 32K(序列长度 32K,批次大小 1920,训练 1000 步),再扩展至 128K(序列长度 128K,批次大小 480,再训练 1000 步)。在“针在干草堆”测试中,128K 长度下表现良好,长上下文能力经得起检验。
3.3 后训练:让模型更贴合人类需求
后训练分为监督微调(SFT)和强化学习(RL)两个阶段。
- SFT:数据集包含 150 万个实例,覆盖推理(数学、编程、逻辑)和非推理(写作、角色扮演、问答)两大类。推理数据使用内部 DeepSeek-R1 模型生成,但 R1 生成的答案可能过于冗长或格式不佳,因此通过设计系统提示和拒绝采样来平衡准确性与简洁性。非推理数据使用 DeepSeek-V2.5 生成,并经过人工验证。训练两轮,学习率从 5×10⁻⁶ 衰减至 1×10⁻⁶,样本间使用掩码避免相互干扰。
- RL:奖励模型分为两种——规则型 RM(数学题验证答案框,编程题使用编译器验证)和模型型 RM(自由形式任务使用 SFT 检查点训练 RM,并加入推理链以防止奖励作弊)。优化方法采用 GRPO,通过组内评分估计基线,避免使用庞大的 critic 模型。RL 显著提升了基准测试表现,尤其是在 SFT 数据有限的场景下。
4. 训练效率:为何 DeepSeek-V3 训练成本如此之低?
成本低廉的秘密藏于硬件、算法与框架的协同优化之中。
4.1 计算集群
由 2048 个 NVIDIA H800 GPU 组成,节点内通过 NVLink 连接,节点间通过 InfiniBand 连接。虽非最顶配集群,但搭配得当。
4.2 训练框架(HAI-LLM)
- 并行策略:16 路流水线并行(PP) + 64 路专家并行(EP,跨越 8 个节点) + ZeRO-1 数据并行。专家均匀分布至各节点,通信压力得到有效分散。
- DualPipe 算法:创新的流水线并行算法,减少了跑批时的“气泡时间”,并通过计算-通信重叠使通信延迟几乎被隐藏。只要计算与通信的比率保持恒定,跨节点专家并行的通信开销趋近于零。
- 高效通信:跨节点 all-to-all 通信经过优化,充分利用 IB 和 NVLink 的带宽差异。每个令牌最多仅发送至 4 个节点,IB 流量自然减少。同时采用 warp specialization 技术,仅用 20 个 SM 即可跑满带宽。
- 内存优化:RMSNorm 和 MLA 上投影采用重计算以减少激活内存;EMA 参数存储在 CPU 上异步更新;MTP 模块的嵌入层和输出头与主模型共享,节省了大量内存。
4.3 FP8 训练
FP8 相比传统的 BF16 更节省内存和算力,但容易产生溢出和量化误差。DeepSeek-V3 采用多项策略来应对:
- 细粒度量化:激活按 1×128 瓦片量化,权重按 128×128 块量化,误差更小。
- 高精度累加:在 Tensor Cores 处理 FP8 GEMM 时,每隔 128 个元素就将中间结果提升至 CUDA Cores 的 FP32 寄存器,减少累加误差。
- 在线量化:实时计算最大绝对值,简化流程。
- 低精度存储与通信:激活和优化器状态使用 FP8 或 BF16 存储,通信时部分激活也量化为 FP8。
最终 FP8 训练的损失误差低于 0.25%,在 16B 和 230B 规模模型上已得到验证。这堪称大规模模型 FP8 训练的一次出色实践。
4.4 推理与部署
预填充阶段最小单位为 4 节点(32 个 GPU),注意力采用 TP4+SP+DP8,MoE 采用 EP32。解码阶段最小单位为 40 节点(320 个 GPU),注意力采用 TP4+SP+DP80,MoE 采用 EP320。负载均衡方面,通过冗余专家策略动态复制高负载专家,每 10 分钟调整一次。此外还探索了动态冗余策略,每次推理前计算全局最优路由方案,不过还需进一步优化。吞吐量提升方面,同时处理两个微批次,使一个批次的注意力计算与另一个批次的 MoE 通信重叠。解码阶段注意力耗时较多,仅分配少量 SM 处理 MoE,整体性能保持良好。
4.5 硬件建议
报告中还给出了若干硬件方向上的建议:例如开发专用通信协处理器(类似 NVIDIA SHARP),统一 IB 和 NVLink 网络;提升 Tensor Cores 的 FP8 GEMM 累加精度,至少支持 34 位;支持瓦片级和块级量化,减少 Tensor Cores 与 CUDA Cores 之间的数据搬运;支持在线量化,融合 FP8 转换和 TMA 访问;支持转置 GEMM 操作,简化流程。这些都是未来硬件迭代时可关注的方向。
5. 性能评估:DeepSeek-V3 表现如何?
评估分为基模型和聊天模型两部分,对比对象涵盖同量级的开源模型和闭源模型。
5.1 基模型表现
- 英语基准:MMLU 87.1%、MMLU-Pro 64.4%、DROP 89.0 F1,全面领先。
- 代码基准:HumanEval 65.2%、MBPP 75.4%、LiveCodeBench 19.4%,远超其他开源模型。
- 数学基准:GSM8K 89.3%、MATH 61.6%、MGSM 79.8%,接近闭源水平。
- 中文基准:C-Eval 90.1%、CMMLU 88.8%,优于 Qwen2.5 72B。
- 多语言:MMMLU 非英语部分 79.4%,表现优异。
结论清晰:DeepSeek-V3 基模型是目前最强的开源基模型,代码和数学领域尤为突出。
5.2 聊天模型表现
- 英语基准:Arena-Hard 85.5%、AlpacaEval 2.0 70.0%,首次将开源模型推至 85% 以上,接近闭源模型。MMLU 88.5%、MMLU-Pro 75.9%、GPQA-Diamond 59.1%,同样接近闭源。
- 代码基准:HumanEval-Mul 82.6%、LiveCodeBench 37.6% 领先算法任务;SWE-Bench 42.0%、Aider 79.7% 在工程任务上仅次于 Claude-3.5。
- 数学基准:AIME 2024 39.2%、MATH-500 90.2%、CNMO 2024 43.2%,创非 o1 类模型新纪录。
- 中文基准:C-Eval 86.5%、C-SimpleQA 64.8%,优于 Qwen2.5 72B。中文事实性任务领先,但英文 SimpleQA 24.9% 稍逊于 GPT-4o 和 Claude。
- 长上下文:DROP 91.6 F1、LongBench v2 48.7%,表现不错。
综合来看,DeepSeek-V3 聊天模型是目前最强的开源聊天模型,数学和编程尤为亮眼。
5.3 消融研究
MTP 策略在不同规模模型上均验证了提升效果,代码和数学任务增益最大。无辅助损失负载均衡相较于传统方法表现更佳,专家分工更清晰。批次级均衡(无辅助损失方法)比序列级更灵活,允许不同领域的专家更加专注。
6. 创新点总结:DeepSeek-V3 实现了哪些突破?
- 架构创新:无辅助损失负载均衡策略,减少性能损失;MTP 训练目标,提升数据效率和推理速度。
- 预训练效率:FP8 混合精度训练首次在大规模模型上验证可行性;DualPipe 算法与通信优化实现计算-通信近乎完全重叠;总训练成本仅 278.8 万 H800 GPU 小时。
- 后训练优化:从 DeepSeek-R1 蒸馏推理能力,显著提升数学和编程表现;自奖励方法通过投票反馈优化对齐效果。
7. 局限性与未来方向
7.1 局限性
部署成本偏高——推荐的最小部署单位为预填充 32 GPU、解码 320 GPU,对小型团队存在一定门槛。推理速度虽比 DeepSeek-V2 快 2 倍,但仍有提升空间。
7.2 未来方向
- 架构优化:进一步提升训练和推理效率,探索无限上下文长度,突破 Transformer 瓶颈。
- 数据扩展:增加训练数据量和质量,挖掘更多训练信号来源。
- 推理能力:提升深度思考能力,延长推理链长度。
- 评估方法:开发更全面的评估体系,避免过度优化特定基准导致能力评估失真。
8. 总结:DeepSeek-V3 的意义
DeepSeek-V3 是目前最强大的开源语言模型,代码和数学领域已逼近甚至超越 GPT-4o 和 Claude-3.5-Sonnet。训练成本仅 557.6 万美元,这背后是 FP8 训练、通信优化和架构创新的协同作用。DeepSeek 团队坚守开源精神,致力于推动 AGI 发展。未来在架构、数据和推理能力上的持续优化,很可能将为开源社区带来更多惊喜。
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:官方揭秘DeepSeek-V3模型训练全流程要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点在 Degiro 上进行投资的用户,常常会遇到一个共同的痛点:平台自带的数据展示较为基础,若想获取更深入的投资组合分析、风险指标,甚至对未来走势做出预测,通常只能借助 Excel 手动处理。不过,现在有一款 Chrome 扩展程序可以完美解决这一难题——Mercury,专为 Degiro 用户量身打
在投资决策过程中,客观数据往往比主观直觉更值得信赖。名为Lorna的智能平台,运用独特的现金流分析体系,帮助投资者穿透虚饰的财务报表,直达企业真实的财务健康状况。 什么是Lorna?——数据驱动的现金流分析投资工具 简而言之,Lorna是一个以数据为核心驱动力的投资分析工具。其核心利器是独创的“现金
Front Street自动追踪你的每一笔消费,整合各类忠诚度计划,并提供财务洞察与省钱妙招——说白了,就是帮你把钱&包管得明明白白。 什么是Front Street? 简单讲,Front Street就是你的购物管家。它自动记录你在每个品牌、每家店的所有购买行为,然后把零散的忠诚度计划全部整合到一
在创投圈深耕多年,你会发现一个普遍难题:融资过程中,投资者关系维护、尽职调查、潜在投资人挖掘……这些环节往往耗费巨大精力,却又直接决定成败。如果能有一款工具将这些琐事自动化,让团队聚焦于真正重要的沟通与战略决策,那该多理想?Finta 正是为此而生。 什么是Finta? Finta 本质上是一款 A
- 日榜
- 周榜
- 月榜
热点快看
