First Token Latency 是什么?大模型响应速度的关键指标
First Token Latency(首 token 延迟)指从用户输入请求到模型生成第一个输出 token 所花费的时间。在流式对话、实时翻译等场景中,这个指标直接影响用户感知的“第一反应速度”,是衡量大模型推理性能的重要维度。
一句话解释
First Token Latency 指的是用户向大模型发送请求后,模型输出第一个有效 token(通常是一个字符或一个子词)所经历的时间。在流式对话场景中,这个时间决定了用户需要等待多久才能看到 AI 开始“说话”。
为什么会被关注
随着 ChatGPT 等对话式 AI 普及,用户对交互实时性要求极高。如果 First Token Latency 过长(比如超过 2 秒),用户会明显感到卡顿,影响使用体验和产品留存。
在实时翻译、客服机器人、语音助手等场景中,首 token 延迟甚至比整体生成速度更关键,因为它直接决定了“第一印象”。因此,工程师和产品经理会专门优化这个指标。
核心逻辑
First Token Latency 主要由三部分构成:请求传输时间(网络)、模型前向计算时间(尤其是预填充阶段,即 Prompt Processing)以及 token 采样输出时间。
在 Transformer 架构中,首 token 的计算需要完整处理用户输入的上下文(包括 KV Cache 的填充),这个过程通常比后续 token 生成更耗时。因此,优化预填充阶段的并行计算与内存访问是关键。
常见场景
1. 在线聊天机器人:用户输入问题后,机器人先输出“嗯”或“好的”,这个首词出现的时间就是 First Token Latency。通常期望低于 500ms。
2. 实时代码补全:IDE 插件中,当用户输入一半代码时,模型尽快给出第一个补全建议,延迟过高会导致打字体验中断。
3. 语音对话系统:用户说完话后,系统生成第一个语音 token 的时间,直接影响对话自然度。
容易混淆的点
First Token Latency 不同于“端到端延迟”(End-to-End Latency)。端到端延迟包含从头到尾的完整生成时间,而首 token 延迟只关注第一个输出。
它也不同于“每秒 token 数”(tokens/s)。后者衡量生成速度,但一个模型可能首 token 延迟很长但后续生成很快,反之亦然。两者需要结合评估。
此外,“Time to First Token”(TTFT)与 First Token Latency 几乎等同,但有些行业术语中 TTFT 特指包含网络和排队时间的总耗时,需要根据上下文区分。
本文内容用于 AI 热词解释和概念整理,仅供学习和理解参考。若涉及表述偏差或内容修正,欢迎联系站点进行更新。
相关热词Token Healing通过修复分词边界导致的概率偏差,提升模型生成文本的连贯性与准确性,是减少词汇分裂错误的重要方法。
Context Rot(上下文旋转)指AI模型在长对话或多轮任务中,逐渐丢失或混淆早期关键信息,导致回答质量下降的现象。它类似人类的短期记忆衰减,但成因更复杂:受限于固定上下文窗口,以及模型对远距离信息的注意力衰减。了解Context Rot有助于优化提示词设计和选择更合适的模型。
推理蒸馏(Reasoning Distillation)是一种特殊的模型蒸馏技术,它不止迁移知识答案,更侧重于将大模型(如GPT-4)的推理过程、思维链和逻辑步骤“压缩”到小模型中,使其在资源受限环境下仍能具备复杂的多步推理能力。这项技术正被广泛应用于端侧智能、实时问答和低成本AI部署。
Model Merging(模型合并)是将两个或多个独立训练的 AI 模型的参数或架构进行组合,生成一个更强、更稳定且无需额外大规模训练的新模型。它区别于传统的模型集成(Ensemble)和模型蒸馏,能在保持推理效率的同时融合多个模型的知识。
Model Spec 是一套定义 AI 模型(如大语言模型)在生成内容时应遵守的行为准则、输出格式和安全约束的技术规范,帮助开发者与用户理解模型的能力边界。
Superalignment(超级对齐)是OpenAI提出的研究方向,目标是在未来出现比人类更聪明的AI系统时,仍能确保其行为符合人类的意图和价值观。它通过可扩展的监督、自动化对齐等技术,解决AI控制难题。

