Tokens Per Second (TPS) 解析:AI模型推理速度的核心指标
Tokens Per Second(TPS)是衡量大语言模型每秒可生成或处理多少个token的指标,数值越高代表推理速度越快,直接影响对话流畅度和实时应用体验。它常与首Token延迟、吞吐量等概念一起用于评估模型部署性能。
一句话解释
Tokens Per Second(TPS)即模型每秒能处理或生成的token数量,是衡量大语言模型推理速度最直观的指标。简单说,TPS越高,模型回答问题的速度就越快。
为什么会被关注
随着大语言模型落地到聊天、代码辅助、实时翻译等场景,用户对响应速度的容忍度越来越低。TPS直接决定了模型能否“聊”起来流畅,低TPS会导致对话卡顿、推理等待长,极大影响体验。
此外,在云服务和API计费中,TPS也影响成本——同样算力下TPS越高,单位时间内能服务的请求越多,商业可行性更强。
核心逻辑
TPS的计算基于模型一次推理能够并行生成多个token的能力,受限于硬件(GPU显存、带宽)、模型大小(参数量)、量化级别以及批处理策略。
例如,未优化的70B模型在单张A100上TPS可能只有个位数,而通过vLLM、TensorRT-LLM等推理加速框架,可将TPS提升几十倍。注意,TPS通常指生成阶段,不包括预填充(Prefill)阶段的速度。
常见场景
在模型评测中,TPS与首Token延迟(TTFT)共同作为速度基准,帮助用户选择性价比最高的部署方案。
在实时对话机器人中,TPS大于50通常能获得“秒回”体验;低于10则明显卡顿。
在高并发API服务中,TPS决定了单节点能支持的最大用户数,也是运维调优的核心参考。
在边缘设备(如手机、笔记本)上,TPS直接反映模型能否在本地流畅运行,对量化模型的选型至关重要。
容易混淆的点
TPS与首Token延迟(TTFT)经常被混用:TTFT衡量收到第一个token的时间,TPS则是生成后续token的平均速度。低TTFT+高TPS才是理想体验。
TPS不同于吞吐量——吞吐量通常指单位时间处理完的完整请求数量,涉及并发和队列,而TPS是单次请求内部生成token的瞬时速率。
同一个模型在不同上下文长度下TPS可能差异巨大,长上下文会导致注意力计算开销剧增,因此比较TPS需标注测试条件。
本文内容用于 AI 热词解释和概念整理,仅供学习和理解参考。若涉及表述偏差或内容修正,欢迎联系站点进行更新。
相关热词模型部署是将训练好的机器学习或深度学习模型集成到生产环境中,使其能够接收输入、处理并返回预测结果的过程。它是AI项目从研发走向实际应用的核心环节,决定了模型的最终价值。

