Cache-Augmented Generation：让大模型告别重复计算，一步到位

本次查询Cache-Augmented GenerationAI 热词解释结果

中文解释缓存增强生成

热词类型大模型优化技术

常见场景适用于需要频繁处理相同或相似上下文的大模型应用 / 如客服对话 / 代码补全 / 多轮聊天 / 模板化内容生成等实时交互场景。

一句话解释

Cache-Augmented Generation（缓存增强生成，CAG）是一种技术方法，它在大模型推理时保存并复用中间计算结果（尤其是键值对缓存），避免每次生成都需要重新计算整个提示词的上下文。

简单来说，就像浏览器缓存网页一样，模型把已处理过的“前半段”存下来，当遇到相同或相似的部分时，直接取用缓存，从而大幅加快生成速度、降低计算成本。

随着大模型在实时对话和API服务中的普及，推理延迟和算力成本成为主要瓶颈。传统方法每次请求都从零开始计算完整上下文，即使内容完全重复。

CAG通过缓存共享中间状态，让重复查询的响应时间缩短几十倍甚至上百倍，同时降低GPU资源消耗。它特别适合多用户共用系统提示、固定指令模板等场景，成为业界优化推理效率的核心方向之一。

CAG的核心在于“键值缓存”（KV Cache）。在Transformer解码过程中，每个自注意力层都会产生键和值张量，这些张量随着生成步骤累积。

当用户发送包含重复前缀（如系统提示、历史对话）的请求时，CAG会提前计算并存储这部分前缀对应的KV Cache。后续请求只需加载缓存，只计算新增加的令牌，避免重复计算整个前缀的注意力，从而大幅减少计算量。

最常见的是多轮聊天机器人：系统提示（如角色设定）通常不变，或每轮都包含历史消息。CAG可缓存系统提示和已有对话，每轮只需处理最新用户输入，响应速度显著提升。

另一个典型场景是模板化内容生成：例如电商商品描述、代码补全工具中的固定前缀（如函数签名），缓存后能实现近乎即时的生成。此外，长上下文处理（如文档问答）中也可预缓存文档段落的KV Cache。

CAG常被与RAG（检索增强生成）混淆。RAG通过外部知识库检索相关文本并拼入提示，而CAG不涉及外部检索，它重用模型内部的中间计算状态。两者可以互补：RAG提供动态知识，CAG加速固定部分的推理。

另一个易混点是“提示缓存”（Prompt Cache）与“CAG”的关系。提示缓存通常指缓存整个提示词的输出（如最终生成结果），而CAG缓存的是中间层表示（KV Cache），从而支持部分更新，比单纯缓存结果更灵活有效。

来源：AI 热词解释频道整理

Cache-Augmented Generation 大模型推理优化上下文缓存 KV缓存长上下文处理

本文内容用于 AI 热词解释和概念整理，仅供学习和理解参考。若涉及表述偏差或内容修正，欢迎联系站点进行更新。

相关热词

推理加速更新：2026-05-14

推理加速是一系列旨在提升AI模型在部署后实际运行（即推理）阶段速度和效率的技术总称。它通过硬件优化、软件算法和模型压缩等手段，让模型在保持精度的前提下，用更少的计算资源和时间完成预测任务，是AI落地应用的核心瓶颈突破点。

常查热词