数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

热点详情

DeepSeekV3多token并行预测机制详解

AI热点日报时间：2026-06-29

热点解读

这篇文章深入解读了 DeepSeekV3 的 MTP 方法，技术价值极高。核心内容包括：为什么做 MTP、MTP 方法的探索历程、DeepSeek MTP 的详细实现与总结。下面我们就逐一展开。 01 为什么要做MTP 在深入具体方法之前，得先搞清楚一个问题：为什么需要 MTP（Multi-Toke

这篇文章深入解读了 DeepSeekV3 的 MTP 方法，技术价值极高。核心内容包括：为什么做 MTP、MTP 方法的探索历程、DeepSeek MTP 的详细实现与总结。下面我们就逐一展开。

01 为什么要做MTP

在深入具体方法之前，得先搞清楚一个问题：为什么需要 MTP（Multi-Token Prediction）？

背景

目前主流的大语言模型（LLMs）基本都是 decoder-only 结构，无论是训练还是推理，生成序列都是 token-by-token 的。每次生成一个 token 时，都要与内存频繁交互，加载 KV-Cache，再经过多层网络做完整前向计算。这种访存密集型的任务，往往会因为访存效率成为训练或推理的瓶颈。

针对 token-by-token 效率低下的问题，业界已经有很多优化思路，比如减少存储空间、降低访存次数等，目的都是提升训练和推理性能。

MTP方法的作用

本文要讲的 MTP 方法，正是这个优化分支中的一个系列。它的核心思想是：通过解码阶段的优化，将一次生成一个 token 变成一次生成多个 token，从而提升训练和推理的效率。具体来说，训练阶段一次预测多个后续 token，可以一次性学习多个位置的标签，有效提高样本利用效率，加速训练；推理阶段一次生成多个 token，实现成倍加速。

我们将通过三篇代表性论文，把 MTP 在业界的探索主线梳理清楚，最后再详细讲解和对比 DeepSeek 的 MTP 方法。

02 MTP 方法的一些探索

2.1 Blockwise Parallel Decoding

先来看一篇 Google 在 2018 年 NIPS 上的工作——那时候 Transformer 才刚刚诞生不久，BERT 和 GPT-1 的参数量也才 0.1B 左右。所以 MTP 并不是大模型时代的全新产物，而是从第一代 Transformer 模型起就有人在研究了。

这篇论文主要针对推理阶段的加速，标题“块并行解码”已经暗示了不是 token-by-token 生成。我们先看论文中的网络结构图（图 1）：

图1、Blockwise Parallel Decoding 网络框图

这个图乍一看是并行的，但很多细节没体现，也不太像典型的 Transformer 结构——毕竟 2018 年还处于 SVM、LSTM 统治的时代，Transformer 远没有成为共识。为了更直观地理解，我按自己的理解补充了一个版本（图 2）：

图2、Blockwise Parallel Decoding 网络框图（yy版）

网络结构细节如下：

主干网络是一个训练好的多层 decoder-only Transformer，经过多层前向计算后，最终输出 h 维的 logit。
logit 上面接了多个输出 Head，每个 Head 负责预测一个 token：Head₁ 预测 next token，Head₂ 预测 next next token，以此类推。
每个 Head 有三层：
- 一个共享的 FFN 层，将 logit 做宽映射（h → 4h）；
- 一个特化的、非共享的 FFN 层，将维度还原（4h → h），再与原始 logit 做残差连接；
- 最后送入词表投影层（线性变换 + Softmax），预测词概率分布，通过采样（如 greedy、beam search）生成 token。注意，词表投影层是所有 Head 共享的。
主干网络 + Head₁ 就是预训练的原模型，其他 Head 是辅助网络。

从图 2 可以看出，输入一个 token t₁，多个 Head 并行输出 t₂'、t₃' …… tₖ'。

理解了网络细节，再看推理过程就容易了。论文给出了三阶段描述（图 3）：

图3、Blockwise Parallel Decoding 推理

推理过程

阶段1（预测）：利用 k 个 Head 一次生成 k 个 token，每个 Head 生成一个。
阶段2（验证）：将原始序列和生成的 k 个 token 拼接，组成多个 Pair，再依次验证每个 label 与预测结果的一致性。
阶段3（接受）：选择 Head₁ 预测结果与 label 一致的最长连续 k 个 token 作为可接受的结果。

相比 token-by-token 生成，加速效果如何？假设要生成序列长度 m，并行 Head 数 k，最优情况下所有辅助 Head 的预测与 Head₁ 完全一致，验证阶段全部被接受：

原始方法：需要 m 步。
本文方法：每 k 个 token 执行一次三阶段，predict 一步、verify 一步，accept 不耗时，共需 2m/k 步。
加速比：m → 2m/k，当 k=4 时可提速 1 倍。

这里有一个细节：token-by-token 每一步计算更轻，而本文方法 predict 要算多头、verify 要处理 batch，时间是否不同？实际上 GPU 擅长并行，计算一个批次和单个序列的时间差可以忽略，多头和单头的时间差也可忽略，因为瓶颈通常在访存而不是计算。

作者还提出了进一步优化：将第 n 步的 verify 与第 n+1 步的 predict 重叠（图 4），能进一步提高性能：

图4、Predict和Verify重叠设计

重叠后的过程：第一步只做 predict，之后每一步同时进行 verify 和 predict，每次序列往前走 k 个 token，直到生成终止标记。总步数：1 + m/k。当 k=4 时可加速 3 倍。

到此，Blockwise Parallel Decoding 的核心内容就清楚了。虽然命名上没带“MTP”，但它为后续 Speculative Sampling 和 Meta 的 MTP 提供了重要启发。

2.2 Meta's MTP

这是 Meta 在 2024 年 4 月发表的工作（论文：arXiv:2404.19737）。

动机简述

传统 next-token 预测的问题：

训练时 token-by-token 是一种局部感知方式，难以学习长距离依赖。
推理时逐个生成，速度慢。

MTP 的改进：

训练时通过预测多步 token，迫使模型学习更长依赖，避免陷入局部决策，同时提高样本利用率。
推理时并行预测多个 token，提升速度。

方法实现

模型架构如图 5：一个共享 Transformer 主干，上面接 4 个并行预测头，对输入 token tᵢ 分别预测 tᵢ₊₁、tᵢ₊₂、tᵢ₊₃、tᵢ₊₄。

图5、Meta's MTP 网络框图

详细说明：

主干网络是 decoder-only 多层 Transformer，输入 token 序列 xₜ:₁ 经过计算得到隐层表示 zₜ:₁。
zₜ:₁ 上面接多个 Head，每个 Head 是一个独立的 Transformer 层（MHA + 2 层 FFN），输出 f_hᵢ(zₜ:₁)。
最后送入共享的词表投影层（线性 + Softmax），预测词概率并采样生成 token。

注意：对比 2.1 节 Blockwise Parallel Decoding，除了符号不同，网络结构几乎一样。为了更直观，我也按同样的风格画了图 6：

图6、Meta's MTP 网络框图（yy版）

对比图 2 和图 6，两个微小差异：图 2 是 2 层 FFN，图 6 是一个完整的 Transformer 层；另外图 6 除了可以并行推理，还重点考虑了训练加速——多个头并行计算 loss，提高样本利用效率和收敛速度。

讲完这两篇，方法都比较直观。接下来看 DeepSeek 的 MTP。

03 DeepSeek MTP

先看网络结构（图 7）。乍一看也是多头，但结构更复杂。论文强调保留了序列推理的因果链（causal chain），如图中从一个 Module 链接到后继 Module 的箭头。

图7、Deepseek MTP实现

结合论文公式详细讲解实现细节。

3.1 MTP模块细节实现

如图 7 所示，用 D 个顺序模块预测 D 个 token。每个 MTP 模块的内部结构（红框内）：

输入 token 首先接入共享的 embedding 层。
对于第 i 个 token tᵢ 和第 k 个预测深度：
- 将第 k-1 层的隐层输出 hᵢ^{k-1} 做 RMSNorm 归一化。
- 将第 i+k 位置的 token embedding 做 RMSNorm 归一化。
- 将两个归一化结果拼接后，通过投影矩阵 Mₖ 做线性变换，得到 hᵢ'^{k}。
再将 hᵢ'^{k} 输入 Transformer 层，得到该预测深度的输出 hᵢ^{k}。
最后通过共享的映射矩阵 OutHead 和 softmax 计算词表上的概率分布，标签对应位置 i+1+k 的 token。

公式 (21)(22)(23) 中间出现的切片下标可能让人困惑，我们用一个例子说明。假设序列长度 T=10，对于 k 预测深度，样本构建方式如图 8：

图8、MTP多头训练，样本构建示意图

Main Model 预测 next token，input 和 label 错 1 位；MTP Module 1 预测 next next token，input 和 label 错 2 位。通过错位裁剪可以清晰地理解公式中 i 的范围和对应关系。

3.2 MTP模型训练

通过交叉熵损失计算每个 MTP Module 的损失（公式 24）。下标范围：起始下标 2+k（因为第一个 label 对应 t₂₊ₖ），结束下标 T+1（序列额外包含一个 eos token）。

至此 DeepSeek V3 MTP 的完整流程已经讲完。不过我在读论文时，总感觉流程图和公式对不上，输入 token 太多容易乱。为了帮助理解，我画了一个单 token 输入的版本（图 9），方便与前面两个模型对比：

图9、Deepseek MTP实现（yy版）

建议对比图 2、图 6、图 9，留意 DeepSeek 的实现增加了 causal chain 和残差链接。

画完图 9，不知道大家有没有注意到一个细节：按照公式 (23)，第 k 预测深度是用 tᵢ 预测 tᵢ₊ₖ₊₁。比如 MTP Module 1 输入 t₁ 预测 t₃，但输入明明还有 t₂，这怎么理解？

其实这就是典型的 Teacher forcing 模式——在序列建模训练中，直接用 ground truth 作为输入，效果优于用上一状态的预测值（free-running 模式）。因为预测误差会随时间累加，导致效果损失。

3.3 MTP模型推理

DeepSeek V3 强调 MTP 主要用于训练加速，推理部分只简单提及。推理有两种方式：

方法1：直接去掉 MTP 头，只保留 Main Model，如同常规 LLM 推理，没有加速。
方法2：保留 MTP 头做 self-speculative decoding，利用多 Head 预测实现加速。过程类似 2.1 节的三阶段：predict（多 Head 一次生成 k 个 token）→ verify（拼接后验证）→ accept（选择最长一致序列）。

注意推理阶段的 predict 与训练阶段不同：训练用 Teacher forcing，推理用 free-running 模式，即用上一状态的预测值作为下一状态的输入。推理阶段的模型图如图 10：

图10、Deepseek MTP推理阶段模型图

04 总结

本文对 DeepSeek-V3 的 MTP 方法做了详细的扩展解读，从类似工作的延续角度和细节展开角度进行了整理。很多理解结合了个人知识，不一定完全正确，如有错误欢迎指正。

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：DeepSeekV3多token并行预测机制详解要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://www.53ai.com/news/finetuning/2025012389471.html

ai 人工智能

上一篇：OpenAI开发编程AI Agent相当于6级工程师

下一篇：GitHub十大最佳RAG框架推荐

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。