数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

热点详情

官方揭秘DeepSeek-V3模型训练全流程

AI热点日报时间：2026-06-30

热点解读

DeepSeek-V3拥有6710亿参数，每个token仅激活370亿，训练成本约557 6万美元。采用多头潜在注意力、无辅助损失负载均衡的混合专家架构及多token预测技术。性能在数学、编程等任务上逼近GPT-4o和Claude-3 5-Sonnet，成为目前最强的开源模型。

DeepSeek-V3 的官方技术报告现已正式公开，本文将深入解析这份报告的核心要点。如果你长期关注开源大模型，应该了解 DeepSeek 系列始终在挑战闭源模型的霸主地位，而 V3 版本更是将这一趋势推向了全新高度——6710 亿参数总量，每个令牌仅激活 370 亿参数，训练成本控制在 557.6 万美元，在数学、编程等领域的表现却逼近 GPT-4o 和 Claude-3.5-Sonnet。这究竟是如何实现的？接下来，我们将从架构设计、训练流程到性能评估逐一剖析。

官方报告：DeepSeek-V3 模型是如何炼成的！

论文地址：https://arxiv.org/abs/2412.19437

1. 论文背景：为何要研发 DeepSeek-V3？

近年来，大型语言模型的发展速度令人瞩目。在闭源阵营中，GPT-4o、Claude-3.5-Sonnet 表现抢眼；开源阵营里，DeepSeek 系列、LLaMA 系列也在奋力追赶。DeepSeek-V3 的定位十分清晰：进一步拉升开源模型的能力上限，缩小与闭源模型之间的差距，同时确保训练成本的经济性。具体而言，模型总参数量达 6710 亿，但每次处理令牌时仅激活 370 亿参数，这一设计天然降低了计算开销。核心目标非常直接：在性能上超越其他开源模型，在数学、编程等硬核领域接近闭源水平，而训练成本必须维持在“经济高效”的范畴内。

2. DeepSeek-V3 的架构：它的结构是怎样的？

架构基于 Transformer 框架，但引入了若干关键创新。下面逐一展开。

2.1 多头潜在注意力（MLA）

MLA 的核心作用是提升推理效率。它是如何实现的？通过低秩压缩来减少 KV 缓存的占用空间。打个比方：模型在处理长文本时需要记住大量“键-值”信息，如果全部原样存储，内存很快就会耗尽。MLA 将这些信息压缩到更小的空间中，仅保留最核心的部分，既节约内存又不会损害性能。这一设计在 DeepSeek-V2 中已得到验证，V3 直接沿用。

2.2 DeepSeekMoE：混合专家的优化策略

MoE 的核心思想是“多个专家分工协作”——每个令牌只激活部分专家。DeepSeek 团队在 MoE 方面进行了若干有趣改进：

无辅助损失的负载均衡：传统 MoE 容易导致“忙的忙死、闲的闲死”的问题，以往依赖增加辅助损失来均衡，但辅助损失会拖累模型性能。DeepSeek-V3 另辟蹊径——动态调整每个专家的偏置项以平衡负载，无需依赖辅助损失。当然，为防止单个序列内出现极端不平衡，还添加了一个极小的序列级辅助损失，但影响微乎其微。
节点限制路由：每个令牌最多仅发送至 4 个节点，从而降低训练时的通信开销，更充分地利用硬件资源。
无令牌丢弃：由于负载均衡效果出色，训练和推理阶段均无需丢弃令牌，效率更高。

2.3 多令牌预测（MTP）

传统语言模型每次只预测下一个令牌，而 DeepSeek-V3 能够同时预测未来两个令牌。其优势显而易见：第一，训练信号更加密集——同时预测多个令牌相当于为模型提供了更丰富的学习信号，提升了数据利用效率；第二，推理时可结合“推测解码”，每秒令牌生成速度（TPS）可提升至 1.8 倍。具体实现上，主模型负责预测下一个令牌，再增加一个 MTP 模块预测第二个令牌，训练时两个损失共同计算，推理时 MTP 模块可直接丢弃。实验表明，MTP 策略在大多数基准测试中均能提升性能，尤其在数学和编程任务上效果显著。

3. 训练过程：如何打造 DeepSeek-V3？

训练分为预训练、长上下文扩展和后训练三个阶段。总成本为 278.8 万 H800 GPU 小时，按每小时 2 美元计算，大约为 557.6 万美元。放眼当今行业，这一性价比相当突出。

3.1 预训练：为模型输送海量数据

数据：共 14.8 万亿个令牌，涵盖多种语言（以英语和中文为主），特别增加了数学和编程样本。数据处理方面，进行了去冗余和多样性保持，采用文档打包方法，但不使用跨样本注意力掩码。同时引入了填空策略（类似 DeepSeekCoder-V2），让模型学习上下文预测能力。
分词器：字节级 BPE，词表大小为 128K。优化了多语言压缩效率，新增了若干特殊令牌（如标点符号与换行符的组合），但为避免令牌边界偏差，训练时随机拆分了部分组合令牌。
超参数：61 层 Transformer，隐藏维度为 7168。MoE 层从第 4 层开始，每层包含 1 个共享专家和 256 个路由专家，每次激活 8 个路由专家。训练序列长度为 4K，批次大小从 3072 逐步增加至 15360。优化器采用 AdamW，学习率从 0 上升至 2.2×10⁻⁴ 再逐步衰减。
稳定性：整个预训练过程非常稳定，未出现不可恢复的 loss spike，也无需回滚。这一点在超大规模训练中实属难得。

3.2 长上下文扩展：让模型能够阅读长文本

目标是将上下文窗口从 4K 扩展至 128K。方法分两步：首先使用 YaRN 从 4K 扩展至 32K（序列长度 32K，批次大小 1920，训练 1000 步），再扩展至 128K（序列长度 128K，批次大小 480，再训练 1000 步）。在“针在干草堆”测试中，128K 长度下表现良好，长上下文能力经得起检验。

3.3 后训练：让模型更贴合人类需求

后训练分为监督微调（SFT）和强化学习（RL）两个阶段。

SFT：数据集包含 150 万个实例，覆盖推理（数学、编程、逻辑）和非推理（写作、角色扮演、问答）两大类。推理数据使用内部 DeepSeek-R1 模型生成，但 R1 生成的答案可能过于冗长或格式不佳，因此通过设计系统提示和拒绝采样来平衡准确性与简洁性。非推理数据使用 DeepSeek-V2.5 生成，并经过人工验证。训练两轮，学习率从 5×10⁻⁶ 衰减至 1×10⁻⁶，样本间使用掩码避免相互干扰。
RL：奖励模型分为两种——规则型 RM（数学题验证答案框，编程题使用编译器验证）和模型型 RM（自由形式任务使用 SFT 检查点训练 RM，并加入推理链以防止奖励作弊）。优化方法采用 GRPO，通过组内评分估计基线，避免使用庞大的 critic 模型。RL 显著提升了基准测试表现，尤其是在 SFT 数据有限的场景下。

4. 训练效率：为何 DeepSeek-V3 训练成本如此之低？

成本低廉的秘密藏于硬件、算法与框架的协同优化之中。

4.1 计算集群

由 2048 个 NVIDIA H800 GPU 组成，节点内通过 NVLink 连接，节点间通过 InfiniBand 连接。虽非最顶配集群，但搭配得当。

4.2 训练框架（HAI-LLM）

并行策略：16 路流水线并行（PP） + 64 路专家并行（EP，跨越 8 个节点） + ZeRO-1 数据并行。专家均匀分布至各节点，通信压力得到有效分散。
DualPipe 算法：创新的流水线并行算法，减少了跑批时的“气泡时间”，并通过计算-通信重叠使通信延迟几乎被隐藏。只要计算与通信的比率保持恒定，跨节点专家并行的通信开销趋近于零。
高效通信：跨节点 all-to-all 通信经过优化，充分利用 IB 和 NVLink 的带宽差异。每个令牌最多仅发送至 4 个节点，IB 流量自然减少。同时采用 warp specialization 技术，仅用 20 个 SM 即可跑满带宽。
内存优化：RMSNorm 和 MLA 上投影采用重计算以减少激活内存；EMA 参数存储在 CPU 上异步更新；MTP 模块的嵌入层和输出头与主模型共享，节省了大量内存。

4.3 FP8 训练

FP8 相比传统的 BF16 更节省内存和算力，但容易产生溢出和量化误差。DeepSeek-V3 采用多项策略来应对：

细粒度量化：激活按 1×128 瓦片量化，权重按 128×128 块量化，误差更小。
高精度累加：在 Tensor Cores 处理 FP8 GEMM 时，每隔 128 个元素就将中间结果提升至 CUDA Cores 的 FP32 寄存器，减少累加误差。
在线量化：实时计算最大绝对值，简化流程。
低精度存储与通信：激活和优化器状态使用 FP8 或 BF16 存储，通信时部分激活也量化为 FP8。

最终 FP8 训练的损失误差低于 0.25%，在 16B 和 230B 规模模型上已得到验证。这堪称大规模模型 FP8 训练的一次出色实践。

4.4 推理与部署

预填充阶段最小单位为 4 节点（32 个 GPU），注意力采用 TP4+SP+DP8，MoE 采用 EP32。解码阶段最小单位为 40 节点（320 个 GPU），注意力采用 TP4+SP+DP80，MoE 采用 EP320。负载均衡方面，通过冗余专家策略动态复制高负载专家，每 10 分钟调整一次。此外还探索了动态冗余策略，每次推理前计算全局最优路由方案，不过还需进一步优化。吞吐量提升方面，同时处理两个微批次，使一个批次的注意力计算与另一个批次的 MoE 通信重叠。解码阶段注意力耗时较多，仅分配少量 SM 处理 MoE，整体性能保持良好。

4.5 硬件建议

报告中还给出了若干硬件方向上的建议：例如开发专用通信协处理器（类似 NVIDIA SHARP），统一 IB 和 NVLink 网络；提升 Tensor Cores 的 FP8 GEMM 累加精度，至少支持 34 位；支持瓦片级和块级量化，减少 Tensor Cores 与 CUDA Cores 之间的数据搬运；支持在线量化，融合 FP8 转换和 TMA 访问；支持转置 GEMM 操作，简化流程。这些都是未来硬件迭代时可关注的方向。

5. 性能评估：DeepSeek-V3 表现如何？

评估分为基模型和聊天模型两部分，对比对象涵盖同量级的开源模型和闭源模型。

5.1 基模型表现

英语基准：MMLU 87.1%、MMLU-Pro 64.4%、DROP 89.0 F1，全面领先。
代码基准：HumanEval 65.2%、MBPP 75.4%、LiveCodeBench 19.4%，远超其他开源模型。
数学基准：GSM8K 89.3%、MATH 61.6%、MGSM 79.8%，接近闭源水平。
中文基准：C-Eval 90.1%、CMMLU 88.8%，优于 Qwen2.5 72B。
多语言：MMMLU 非英语部分 79.4%，表现优异。

结论清晰：DeepSeek-V3 基模型是目前最强的开源基模型，代码和数学领域尤为突出。

5.2 聊天模型表现

英语基准：Arena-Hard 85.5%、AlpacaEval 2.0 70.0%，首次将开源模型推至 85% 以上，接近闭源模型。MMLU 88.5%、MMLU-Pro 75.9%、GPQA-Diamond 59.1%，同样接近闭源。
代码基准：HumanEval-Mul 82.6%、LiveCodeBench 37.6% 领先算法任务；SWE-Bench 42.0%、Aider 79.7% 在工程任务上仅次于 Claude-3.5。
数学基准：AIME 2024 39.2%、MATH-500 90.2%、CNMO 2024 43.2%，创非 o1 类模型新纪录。
中文基准：C-Eval 86.5%、C-SimpleQA 64.8%，优于 Qwen2.5 72B。中文事实性任务领先，但英文 SimpleQA 24.9% 稍逊于 GPT-4o 和 Claude。
长上下文：DROP 91.6 F1、LongBench v2 48.7%，表现不错。

综合来看，DeepSeek-V3 聊天模型是目前最强的开源聊天模型，数学和编程尤为亮眼。

5.3 消融研究

MTP 策略在不同规模模型上均验证了提升效果，代码和数学任务增益最大。无辅助损失负载均衡相较于传统方法表现更佳，专家分工更清晰。批次级均衡（无辅助损失方法）比序列级更灵活，允许不同领域的专家更加专注。

6. 创新点总结：DeepSeek-V3 实现了哪些突破？

架构创新：无辅助损失负载均衡策略，减少性能损失；MTP 训练目标，提升数据效率和推理速度。
预训练效率：FP8 混合精度训练首次在大规模模型上验证可行性；DualPipe 算法与通信优化实现计算-通信近乎完全重叠；总训练成本仅 278.8 万 H800 GPU 小时。
后训练优化：从 DeepSeek-R1 蒸馏推理能力，显著提升数学和编程表现；自奖励方法通过投票反馈优化对齐效果。

7. 局限性与未来方向

7.1 局限性

部署成本偏高——推荐的最小部署单位为预填充 32 GPU、解码 320 GPU，对小型团队存在一定门槛。推理速度虽比 DeepSeek-V2 快 2 倍，但仍有提升空间。

7.2 未来方向

架构优化：进一步提升训练和推理效率，探索无限上下文长度，突破 Transformer 瓶颈。
数据扩展：增加训练数据量和质量，挖掘更多训练信号来源。
推理能力：提升深度思考能力，延长推理链长度。
评估方法：开发更全面的评估体系，避免过度优化特定基准导致能力评估失真。

8. 总结：DeepSeek-V3 的意义

DeepSeek-V3 是目前最强大的开源语言模型，代码和数学领域已逼近甚至超越 GPT-4o 和 Claude-3.5-Sonnet。训练成本仅 557.6 万美元，这背后是 FP8 训练、通信优化和架构创新的协同作用。DeepSeek 团队坚守开源精神，致力于推动 AGI 发展。未来在架构、数据和推理能力上的持续优化，很可能将为开源社区带来更多惊喜。

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：官方揭秘DeepSeek-V3模型训练全流程要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://www.53ai.com/news/OpenSourceLLM/2025022348365.html

ai 人工智能

上一篇：如何用声音训练出适合家庭使用的AI应用？

下一篇：人工智能新技术为癌症患者提供心理保健服务

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。