Cache-Augmented Generation:让大模型告别重复计算,一步到位
Cache-Augmented Generation(缓存增强生成,简称CAG)是一种通过缓存和复用大模型运行过程中的中间状态(如键值缓存)来降低重复计算、加速推理的技术。它特别适合处理频繁出现的系统提示、固定上下文或长对话场景,可显著减少延迟和算力消耗,被视为检索增强生成(RAG)之外的另一种高效方案。
一句话解释
Cache-Augmented Generation(缓存增强生成,CAG)是一种技术方法,它在大模型推理时保存并复用中间计算结果(尤其是键值对缓存),避免每次生成都需要重新计算整个提示词的上下文。
简单来说,就像浏览器缓存网页一样,模型把已处理过的“前半段”存下来,当遇到相同或相似的部分时,直接取用缓存,从而大幅加快生成速度、降低计算成本。
为什么会被关注
随着大模型在实时对话和API服务中的普及,推理延迟和算力成本成为主要瓶颈。传统方法每次请求都从零开始计算完整上下文,即使内容完全重复。
CAG通过缓存共享中间状态,让重复查询的响应时间缩短几十倍甚至上百倍,同时降低GPU资源消耗。它特别适合多用户共用系统提示、固定指令模板等场景,成为业界优化推理效率的核心方向之一。
核心逻辑
CAG的核心在于“键值缓存”(KV Cache)。在Transformer解码过程中,每个自注意力层都会产生键和值张量,这些张量随着生成步骤累积。
当用户发送包含重复前缀(如系统提示、历史对话)的请求时,CAG会提前计算并存储这部分前缀对应的KV Cache。后续请求只需加载缓存,只计算新增加的令牌,避免重复计算整个前缀的注意力,从而大幅减少计算量。
常见场景
最常见的是多轮聊天机器人:系统提示(如角色设定)通常不变,或每轮都包含历史消息。CAG可缓存系统提示和已有对话,每轮只需处理最新用户输入,响应速度显著提升。
另一个典型场景是模板化内容生成:例如电商商品描述、代码补全工具中的固定前缀(如函数签名),缓存后能实现近乎即时的生成。此外,长上下文处理(如文档问答)中也可预缓存文档段落的KV Cache。
容易混淆的点
CAG常被与RAG(检索增强生成)混淆。RAG通过外部知识库检索相关文本并拼入提示,而CAG不涉及外部检索,它重用模型内部的中间计算状态。两者可以互补:RAG提供动态知识,CAG加速固定部分的推理。
另一个易混点是“提示缓存”(Prompt Cache)与“CAG”的关系。提示缓存通常指缓存整个提示词的输出(如最终生成结果),而CAG缓存的是中间层表示(KV Cache),从而支持部分更新,比单纯缓存结果更灵活有效。
本文内容用于 AI 热词解释和概念整理,仅供学习和理解参考。若涉及表述偏差或内容修正,欢迎联系站点进行更新。
相关热词推理加速是一系列旨在提升AI模型在部署后实际运行(即推理)阶段速度和效率的技术总称。它通过硬件优化、软件算法和模型压缩等手段,让模型在保持精度的前提下,用更少的计算资源和时间完成预测任务,是AI落地应用的核心瓶颈突破点。

