Tokens Per Second (TPS) 解析：AI模型推理速度的核心指标

本次查询Tokens Per SecondAI 热词解释结果

中文解释每秒令牌数

热词类型性能指标

常见场景大模型推理 / AI应用部署 / 模型评测

一句话解释

Tokens Per Second（TPS）即模型每秒能处理或生成的token数量，是衡量大语言模型推理速度最直观的指标。简单说，TPS越高，模型回答问题的速度就越快。

随着大语言模型落地到聊天、代码辅助、实时翻译等场景，用户对响应速度的容忍度越来越低。TPS直接决定了模型能否“聊”起来流畅，低TPS会导致对话卡顿、推理等待长，极大影响体验。

此外，在云服务和API计费中，TPS也影响成本——同样算力下TPS越高，单位时间内能服务的请求越多，商业可行性更强。

TPS的计算基于模型一次推理能够并行生成多个token的能力，受限于硬件（GPU显存、带宽）、模型大小（参数量）、量化级别以及批处理策略。

例如，未优化的70B模型在单张A100上TPS可能只有个位数，而通过vLLM、TensorRT-LLM等推理加速框架，可将TPS提升几十倍。注意，TPS通常指生成阶段，不包括预填充（Prefill）阶段的速度。

在模型评测中，TPS与首Token延迟（TTFT）共同作为速度基准，帮助用户选择性价比最高的部署方案。

在实时对话机器人中，TPS大于50通常能获得“秒回”体验；低于10则明显卡顿。

在高并发API服务中，TPS决定了单节点能支持的最大用户数，也是运维调优的核心参考。

在边缘设备（如手机、笔记本）上，TPS直接反映模型能否在本地流畅运行，对量化模型的选型至关重要。

TPS与首Token延迟（TTFT）经常被混用：TTFT衡量收到第一个token的时间，TPS则是生成后续token的平均速度。低TTFT+高TPS才是理想体验。

TPS不同于吞吐量——吞吐量通常指单位时间处理完的完整请求数量，涉及并发和队列，而TPS是单次请求内部生成token的瞬时速率。

同一个模型在不同上下文长度下TPS可能差异巨大，长上下文会导致注意力计算开销剧增，因此比较TPS需标注测试条件。

来源：AI 热词解释频道整理

Tokens Per Second 大模型推理性能基准速度评测模型部署

本文内容用于 AI 热词解释和概念整理，仅供学习和理解参考。若涉及表述偏差或内容修正，欢迎联系站点进行更新。

相关热词

模型部署更新：2026-05-14

模型部署是将训练好的机器学习或深度学习模型集成到生产环境中，使其能够接收输入、处理并返回预测结果的过程。它是AI项目从研发走向实际应用的核心环节，决定了模型的最终价值。

常查热词