面包屑图标 当前位置: 首页
AI资讯
热点详情

DeepSeekV3多token并行预测机制详解

AI热点日报
AI热点日报时间:2026-06-29
热点解读

这篇文章深入解读了 DeepSeekV3 的 MTP 方法,技术价值极高。核心内容包括:为什么做 MTP、MTP 方法的探索历程、DeepSeek MTP 的详细实现与总结。下面我们就逐一展开。 01 为什么要做MTP 在深入具体方法之前,得先搞清楚一个问题:为什么需要 MTP(Multi-Toke

这篇文章深入解读了 DeepSeekV3 的 MTP 方法,技术价值极高。核心内容包括:为什么做 MTP、MTP 方法的探索历程、DeepSeek MTP 的详细实现与总结。下面我们就逐一展开。

DeepSeekV3如何一次性预测多个token

01 为什么要做MTP

在深入具体方法之前,得先搞清楚一个问题:为什么需要 MTP(Multi-Token Prediction)?

背景

目前主流的大语言模型(LLMs)基本都是 decoder-only 结构,无论是训练还是推理,生成序列都是 token-by-token 的。每次生成一个 token 时,都要与内存频繁交互,加载 KV-Cache,再经过多层网络做完整前向计算。这种访存密集型的任务,往往会因为访存效率成为训练或推理的瓶颈。

针对 token-by-token 效率低下的问题,业界已经有很多优化思路,比如减少存储空间、降低访存次数等,目的都是提升训练和推理性能。

MTP方法的作用

本文要讲的 MTP 方法,正是这个优化分支中的一个系列。它的核心思想是:通过解码阶段的优化,将一次生成一个 token 变成一次生成多个 token,从而提升训练和推理的效率。具体来说,训练阶段一次预测多个后续 token,可以一次性学习多个位置的标签,有效提高样本利用效率,加速训练;推理阶段一次生成多个 token,实现成倍加速。

我们将通过三篇代表性论文,把 MTP 在业界的探索主线梳理清楚,最后再详细讲解和对比 DeepSeek 的 MTP 方法。

02 MTP 方法的一些探索

2.1 Blockwise Parallel Decoding

先来看一篇 Google 在 2018 年 NIPS 上的工作——那时候 Transformer 才刚刚诞生不久,BERT 和 GPT-1 的参数量也才 0.1B 左右。所以 MTP 并不是大模型时代的全新产物,而是从第一代 Transformer 模型起就有人在研究了。

这篇论文主要针对推理阶段的加速,标题“块并行解码”已经暗示了不是 token-by-token 生成。我们先看论文中的网络结构图(图 1):

图1、Blockwise Parallel Decoding 网络框图

这个图乍一看是并行的,但很多细节没体现,也不太像典型的 Transformer 结构——毕竟 2018 年还处于 SVM、LSTM 统治的时代,Transformer 远没有成为共识。为了更直观地理解,我按自己的理解补充了一个版本(图 2):

图2、Blockwise Parallel Decoding 网络框图(yy版)

网络结构细节如下:

  • 主干网络是一个训练好的多层 decoder-only Transformer,经过多层前向计算后,最终输出 h 维的 logit。
  • logit 上面接了多个输出 Head,每个 Head 负责预测一个 token:Head₁ 预测 next token,Head₂ 预测 next next token,以此类推。
  • 每个 Head 有三层:
    • 一个共享的 FFN 层,将 logit 做宽映射(h → 4h);
    • 一个特化的、非共享的 FFN 层,将维度还原(4hh),再与原始 logit 做残差连接;
    • 最后送入词表投影层(线性变换 + Softmax),预测词概率分布,通过采样(如 greedy、beam search)生成 token。注意,词表投影层是所有 Head 共享的。
  • 主干网络 + Head₁ 就是预训练的原模型,其他 Head 是辅助网络。

从图 2 可以看出,输入一个 token t₁,多个 Head 并行输出 t₂'、t₃' …… tₖ'。

理解了网络细节,再看推理过程就容易了。论文给出了三阶段描述(图 3):

图3、Blockwise Parallel Decoding 推理

推理过程

  • 阶段1(预测):利用 k 个 Head 一次生成 k 个 token,每个 Head 生成一个。
  • 阶段2(验证):将原始序列和生成的 k 个 token 拼接,组成多个 Pair,再依次验证每个 label 与预测结果的一致性。
  • 阶段3(接受):选择 Head₁ 预测结果与 label 一致的最长连续 k 个 token 作为可接受的结果。

相比 token-by-token 生成,加速效果如何?假设要生成序列长度 m,并行 Head 数 k,最优情况下所有辅助 Head 的预测与 Head₁ 完全一致,验证阶段全部被接受:

  • 原始方法:需要 m 步。
  • 本文方法:每 k 个 token 执行一次三阶段,predict 一步、verify 一步,accept 不耗时,共需 2m/k 步。
  • 加速比:m → 2m/k,当 k=4 时可提速 1 倍。

这里有一个细节:token-by-token 每一步计算更轻,而本文方法 predict 要算多头、verify 要处理 batch,时间是否不同?实际上 GPU 擅长并行,计算一个批次和单个序列的时间差可以忽略,多头和单头的时间差也可忽略,因为瓶颈通常在访存而不是计算。

作者还提出了进一步优化:将第 n 步的 verify 与第 n+1 步的 predict 重叠(图 4),能进一步提高性能:

图4、Predict和Verify重叠设计

重叠后的过程:第一步只做 predict,之后每一步同时进行 verify 和 predict,每次序列往前走 k 个 token,直到生成终止标记。总步数:1 + m/k。当 k=4 时可加速 3 倍。

到此,Blockwise Parallel Decoding 的核心内容就清楚了。虽然命名上没带“MTP”,但它为后续 Speculative Sampling 和 Meta 的 MTP 提供了重要启发。

2.2 Meta's MTP

这是 Meta 在 2024 年 4 月发表的工作(论文:arXiv:2404.19737)。

动机简述

传统 next-token 预测的问题:

  • 训练时 token-by-token 是一种局部感知方式,难以学习长距离依赖。
  • 推理时逐个生成,速度慢。

MTP 的改进:

  • 训练时通过预测多步 token,迫使模型学习更长依赖,避免陷入局部决策,同时提高样本利用率。
  • 推理时并行预测多个 token,提升速度。

方法实现

模型架构如图 5:一个共享 Transformer 主干,上面接 4 个并行预测头,对输入 token tᵢ 分别预测 tᵢ₊₁、tᵢ₊₂、tᵢ₊₃、tᵢ₊₄。

图5、Meta's MTP 网络框图

详细说明:

  • 主干网络是 decoder-only 多层 Transformer,输入 token 序列 xₜ:₁ 经过计算得到隐层表示 zₜ:₁。
  • zₜ:₁ 上面接多个 Head,每个 Head 是一个独立的 Transformer 层(MHA + 2 层 FFN),输出 f_hᵢ(zₜ:₁)。
  • 最后送入共享的词表投影层(线性 + Softmax),预测词概率并采样生成 token。

注意:对比 2.1 节 Blockwise Parallel Decoding,除了符号不同,网络结构几乎一样。为了更直观,我也按同样的风格画了图 6:

图6、Meta's MTP 网络框图(yy版)

对比图 2 和图 6,两个微小差异:图 2 是 2 层 FFN,图 6 是一个完整的 Transformer 层;另外图 6 除了可以并行推理,还重点考虑了训练加速——多个头并行计算 loss,提高样本利用效率和收敛速度。

讲完这两篇,方法都比较直观。接下来看 DeepSeek 的 MTP。

03 DeepSeek MTP

先看网络结构(图 7)。乍一看也是多头,但结构更复杂。论文强调保留了序列推理的因果链(causal chain),如图中从一个 Module 链接到后继 Module 的箭头。

图7、Deepseek MTP实现

结合论文公式详细讲解实现细节。

3.1 MTP模块细节实现

如图 7 所示,用 D 个顺序模块预测 D 个 token。每个 MTP 模块的内部结构(红框内):

  • 输入 token 首先接入共享的 embedding 层。
  • 对于第 i 个 token tᵢ 和第 k 个预测深度:
    • 将第 k-1 层的隐层输出 hᵢ^{k-1} 做 RMSNorm 归一化。
    • 将第 i+k 位置的 token embedding 做 RMSNorm 归一化。
    • 将两个归一化结果拼接后,通过投影矩阵 Mₖ 做线性变换,得到 hᵢ'^{k}。
  • 再将 hᵢ'^{k} 输入 Transformer 层,得到该预测深度的输出 hᵢ^{k}。
  • 最后通过共享的映射矩阵 OutHead 和 softmax 计算词表上的概率分布,标签对应位置 i+1+k 的 token。

公式 (21)(22)(23) 中间出现的切片下标可能让人困惑,我们用一个例子说明。假设序列长度 T=10,对于 k 预测深度,样本构建方式如图 8:

图8、MTP多头训练,样本构建示意图

Main Model 预测 next token,input 和 label 错 1 位;MTP Module 1 预测 next next token,input 和 label 错 2 位。通过错位裁剪可以清晰地理解公式中 i 的范围和对应关系。

3.2 MTP模型训练

通过交叉熵损失计算每个 MTP Module 的损失(公式 24)。下标范围:起始下标 2+k(因为第一个 label 对应 t₂₊ₖ),结束下标 T+1(序列额外包含一个 eos token)。

至此 DeepSeek V3 MTP 的完整流程已经讲完。不过我在读论文时,总感觉流程图和公式对不上,输入 token 太多容易乱。为了帮助理解,我画了一个单 token 输入的版本(图 9),方便与前面两个模型对比:

图9、Deepseek MTP实现(yy版)

建议对比图 2、图 6、图 9,留意 DeepSeek 的实现增加了 causal chain 和残差链接。

画完图 9,不知道大家有没有注意到一个细节:按照公式 (23),第 k 预测深度是用 tᵢ 预测 tᵢ₊ₖ₊₁。比如 MTP Module 1 输入 t₁ 预测 t₃,但输入明明还有 t₂,这怎么理解?

其实这就是典型的 Teacher forcing 模式——在序列建模训练中,直接用 ground truth 作为输入,效果优于用上一状态的预测值(free-running 模式)。因为预测误差会随时间累加,导致效果损失。

3.3 MTP模型推理

DeepSeek V3 强调 MTP 主要用于训练加速,推理部分只简单提及。推理有两种方式:

  • 方法1:直接去掉 MTP 头,只保留 Main Model,如同常规 LLM 推理,没有加速。
  • 方法2:保留 MTP 头做 self-speculative decoding,利用多 Head 预测实现加速。过程类似 2.1 节的三阶段:predict(多 Head 一次生成 k 个 token)→ verify(拼接后验证)→ accept(选择最长一致序列)。

注意推理阶段的 predict 与训练阶段不同:训练用 Teacher forcing,推理用 free-running 模式,即用上一状态的预测值作为下一状态的输入。推理阶段的模型图如图 10:

图10、Deepseek MTP推理阶段模型图

04 总结

本文对 DeepSeek-V3 的 MTP 方法做了详细的扩展解读,从类似工作的延续角度和细节展开角度进行了整理。很多理解结合了个人知识,不一定完全正确,如有错误欢迎指正。

热点追踪提示词
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:DeepSeekV3多token并行预测机制详解要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
来源:https://www.53ai.com/news/finetuning/2025012389471.html
ai 人工智能

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关热点
AI热点2026-07-04 19:00
Daetama数据科学完整准备工作系统指南与精选学习资源汇总

Daetama是面向数据科学面试和SQL能力提升的练习平台,已收录超100个覆盖基础到进阶的SQL题目,求职板块与课程模块在开发中,团队保持每周更新节奏,提供系统性刷题与模拟面试场景。

AI热点2026-07-04 19:00
AI驱动配音平台 Speakmulti

SpeakMulti是一款AI驱动的配音平台,可将YouTube视频翻译成多种语言,保留原始说话者的音色和语调,降低本地化成本。用户提交视频并选择目标语言后,AI自动完成配音,并由专家团队审核,确保准确自然。

AI热点2026-07-04 18:59
Umi-OCR图片转文字识别软件

需求人群 如果你经常需要从图片中提取文字——例如整理截图内容、翻译图片里的外语文本、识别带有水印的图片信息——那么 Umi-OCR 无疑是一款相当实用的工具。它完全在本地运行,无需联网,对隐私保护极为友好。 产品特色 这款工具的核心亮点都集中在实用性上。截屏识别操作非常顺手,按下快捷键即可框选区域,

AI热点2026-07-04 18:59
用AI生成你最爱的画家或艺术运动风格绘画

艺术创作与人工智能的融合,正在开启一个全新的创作时代。moonlightai 正是这样一款AI绘画工具,能够帮助用户通过人工智能快速生成不同风格的绘画作品——无论你想复刻文艺复兴时期的古典优雅,还是为画作注入梵高般炽热的笔触,甚至从艾沃佐夫斯基的海浪星空中汲取灵感,它都能轻松实现。 需求人群 简单来

延伸阅读