Prefix Caching（前缀缓存）

本次查询Prefix CachingAI 热词解释结果

中文解释前缀缓存

热词类型AI技术概念

常见场景大模型推理优化

一句话解释

Prefix Caching（前缀缓存）是指在LLM推理过程中，将多次请求共用的输入前缀（如系统提示词、对话历史）对应的Key-Value缓存（KV Cache）存储下来，后续相同前缀的请求可以直接复用，无需重新计算整个前缀的注意力矩阵。

为什么会被关注

随着大模型在对话、代码生成等场景的广泛应用，推理效率和成本成为关键瓶颈。Prefix Caching能大幅减少重复的前缀计算量，将首Token生成延迟降低50%以上，同时提升GPU利用率。vLLM、TGI等主流推理框架已原生支持该技术，开发者无需修改模型即可获得加速效果。

核心逻辑

核心思想是利用请求中相同的前缀部分：当多个请求共享相同的初始token序列（如系统指令），它们的KV Cache在前缀部分完全一致。系统首次计算后将前缀的KV cache存入哈希表，后续请求通过哈希匹配直接复用，仅需计算新增加的token。这避免了重复的Prefill阶段，显著减少计算和显存带宽开销。

常见场景

多轮对话中，每轮请求都包含之前的对话历史，使用Prefix Caching可避免反复重算历史部分的KV cache。Agent应用中固定系统提示词、用户身份描述等长前缀也能显著受益。此外，批处理相同指令的文本生成（如批量翻译相同前缀的句子）也可利用前缀缓存加速整体吞吐。

容易混淆的点

Prefix Caching不同于普通的KV Cache（其缓存整个序列的K和V矩阵）。前缀缓存仅缓存公共前缀，而普通KV Cache是每个请求独立的。另外，它也与页面缓存（Page Cache）或提示词缓存（Prompt Cache）不同——后者可能缓存完整提示的生成结果，而非中间注意力状态。

来源：AI 热词解释频道整理

Prefix Caching 大模型推理推理加速 KV Cache vLLM

上一篇：Continuous Batching：让AI推理不再“堵车”的批处理技术

下一篇：KV Cache 是什么？

本文内容用于 AI 热词解释和概念整理，仅供学习和理解参考。若涉及表述偏差或内容修正，欢迎联系站点进行更新。

相关热词

Token更新：2026-05-14

Token：AI世界的“语言货币”

Token是AI处理文本时切分的最小语义单元，直接影响模型的理解能力、生成长度和API调用成本。

vLLM更新：2026-05-20

vLLM：让大模型推理速度飙升的开源引擎

vLLM是一个开源的大语言模型推理和服务引擎，以其独创的PagedAttention注意力算法为核心，能显著提升模型吞吐量，降低服务成本，已成为部署LLM API服务的热门选择。

推理加速更新：2026-05-14

推理加速：让AI模型“思考”得更快、更省

推理加速是一系列旨在提升AI模型在部署后实际运行（即推理）阶段速度和效率的技术总称。它通过硬件优化、软件算法和模型压缩等手段，让模型在保持精度的前提下，用更少的计算资源和时间完成预测任务，是AI落地应用的核心瓶颈突破点。

常查热词

大语言模型大语言模型：AI的“语言大脑”，如何理解与生成人类语言？ 大模型大模型：AI的“全能大脑”，为何能掀起技术革命？ RAGRAG：让大模型学会“翻书”的检索增强技术 智能体智能体是什么？从AI助手到自主决策的进化 生成式AI生成式AI AIGCAIGC：当人工智能成为内容创作者 代码生成代码生成：AI帮你写代码，从自然语言到可执行程序 扩散模型扩散模型：从噪声中“生长”出图像的AI魔法