Draft Model
Draft Model(草稿模型)是投机解码技术中的关键组件,它是一个小型、快速的模型,用于生成初步的token序列草稿,然后由目标大模型进行验证和修正,从而在不影响最终质量的前提下大幅提升推理速度。
一句话解释
Draft Model是指一个轻量级模型,在投机解码流程中负责快速生成初步的输出草稿,再由主模型验证,从而提升推理效率。
为什么会被关注
大模型推理成本高、速度慢是实际部署中的核心瓶颈。Draft Model能以很小的计算代价生成候选序列,减少主模型的计算次数,显著降低延迟和资源消耗。
该技术让大模型在保持输出质量的同时,实现数倍的速度提升,因此被学术界和工业界广泛研究,并已应用于多个高性能推理框架中。
核心逻辑
投机解码同时运行一个快速的小模型(Draft Model)和一个准确的大模型(Target Model)。Draft Model逐token生成草稿序列,然后由大模型并行验证草稿的正确性。
大模型只接受验证通过的部分,并以此为基础继续生成。这样一次推理能产出多个token,相当于用小型模型的计算换取大模型的加速,整体效率大幅提升。
常见场景
主要应用于需要低延迟的大模型推理场景,如实时聊天机器人、代码补全、文档生成等。Draft Model可部署在边缘设备上,辅助云端大模型实现快速响应。
在模型服务框架(如vLLM、TensorRT-LLM)中也常集成投机解码模块,利用Draft Model降低用户等待时间,同时保证生成内容的连贯性和准确性。
容易混淆的点
容易与“蒸馏后的精简模型”混淆,但Draft Model不一定是蒸馏得到的,它可以是任意较小的模型,无需继承主模型的知识。
另外,Draft Model不负责最终输出质量,只生成候选;质量由主模型兜底。它与“草稿生成模型”(如初稿AI写作)不同,后者是独立完成完整输出的模型。
本文内容用于 AI 热词解释和概念整理,仅供学习和理解参考。若涉及表述偏差或内容修正,欢迎联系站点进行更新。
相关热词Speculative Decoding(投机解码)是一种加速大语言模型推理的采样方法。它利用一个轻量级的草稿模型快速生成多个候选 token,再用目标模型并行验证这些候选,从而减少目标模型的串行调用次数。该方法无需修改模型结构或重新训练,即可在不改变生成分布的前提下实现 2-3 倍的加速,尤其适合对延迟敏感的实时对话和推理场景。
推理加速是一系列旨在提升AI模型在部署后实际运行(即推理)阶段速度和效率的技术总称。它通过硬件优化、软件算法和模型压缩等手段,让模型在保持精度的前提下,用更少的计算资源和时间完成预测任务,是AI落地应用的核心瓶颈突破点。

