数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

热点详情

缓存增强生成或将替代RAG成为知识任务新宠

AI热点日报时间：2026-06-29

热点解读

当RAG不再是唯一选择：CAG如何用缓存碘伏知识检索说到检索增强生成（RAG），很多做自然语言处理的朋友都不陌生——它通过动态拉取外部知识来提升大模型的回答质量，在开放域问答和专业任务中表现抢眼。但RAG也有自己的烦恼：检索延迟、文档选择出错、系统架构复杂，这些都是实际落地时绕不开的坎儿。最近有一

当RAG不再是唯一选择：CAG如何用缓存碘伏知识检索

说到检索增强生成（RAG），很多做自然语言处理的朋友都不陌生——它通过动态拉取外部知识来提升大模型的回答质量，在开放域问答和专业任务中表现抢眼。但RAG也有自己的烦恼：检索延迟、文档选择出错、系统架构复杂，这些都是实际落地时绕不开的坎儿。最近有一篇论文提出了一种全新的思路——缓存增强生成（CAG），干脆跳过了实时检索这个环节，用预计算的KV缓存来替代，听起来是不是有点碘伏？

研究背景

RAG之所以流行，是因为它能让模型像查资料一样，实时从外部知识库中获取最新信息。但问题也出在这里：每一次查询都要走一遍检索、排序、融合的流程，延迟自然就上去了；文档召回质量不稳定，选错了段落会直接带偏答案；再加上系统集成复杂，维护成本居高不下。与此同时，长上下文大语言模型（LLMs）的能力在快速提升，它们处理超长文本输入的效率越来越高——这为绕过检索环节提供了新的可能性。

关键洞察在于：既然模型自己能记住足够长的上下文，为什么还要每次去检索呢？预先把相关知识加载到上下文中，让模型一次读完所有信息，不就能省去检索的麻烦吗？CAG正是基于这个想法诞生的。

方法介绍

CAG框架

CAG的核心流程分为三个阶段，每一步都扣得挺紧：

外部知识预加载：把与应用场景相关的文档集合D进行预处理和格式化，让它能塞进模型的扩展上下文窗口里。然后利用LLM（参数θ）处理D，生成预计算的键值（KV）缓存，存储在磁盘或内存中供后续使用。注意：这个处理D的计算成本只需要一次，后续所有查询都能复用。

推理：用户查询Q到来时，直接将预计算的KV缓存和Q一起加载到LLM中。模型利用缓存的上下文生成响应。这一步彻底消除了检索延迟——因为知识已经提前准备好了，模型只需在已有上下文基础上做推理，不存在检索错误的风险，同时也能确保对外部知识和用户查询的统一理解。
缓存重置：多次推理过程中，KV缓存会随着新令牌追加而增长。为了保持性能，可以高效地重置缓存——通过截断新追加的令牌来实现快速重新初始化，无需从磁盘重新加载整个缓存。这有点像清空临时文件，但成本极低。

相比传统RAG，CAG的优势很明显：推理时间大幅缩短（没有实时检索）、统一上下文带来更一致的响应质量、系统架构简化降低了开发和维护成本。当然，前提是外部知识的总量不能超出模型的上下文窗口——这是目前的主要限制。

实验设置与结果

实验设置

论文在斯坦福问答数据集（SQuAD）1.0和HotPotQA上进行了实验。为了研究参考文本长度对检索难度的影响，每个数据集都构建了三个不同参考文本长度的测试集。硬件平台是Tesla V100 32G×8 GPUs，基础LLM选用Llama 3.1 8B指令模型。CAG通过预计算的KV缓存预加载数据集上下文。

基线系统

对比的RAG系统基于LlamaIndex实现，包含两种检索策略：BM25稀疏检索和OpenAI密集检索。每个数据集分别评估，检索系统只从对应数据集中获取段落。

实验结果

1. 答案质量

如【表格2】所示，CAG在大多数情况下拿到了最高的BERTScore，全面超越了传统RAG系统。原因很简单：预加载整个测试集的上下文，彻底消除了检索错误，模型可以对所有相关信息进行整体推理。在RAG可能检索到不相关或不完整段落的场景下，CAG的优势尤其突出。

2. 生成时间

【表格3】的数据更直观：CAG显著减少了生成时间，而且参考文本越长，优势越大。这是因为预加载的KV缓存省去了实时处理参考文本的成本，同时完全绕过了检索阶段——相比RAG，相当于省掉了“查资料”这一步。

研究总结与展望

随着长上下文LLMs的成熟，CAG这种思路为重新思考传统RAG工作流程提供了有力依据。当然，论文强调消除检索延迟，但未来也可以探索混合方案——比如预加载基础上下文后再结合选择性检索，在效率和灵活性之间找到更优平衡点，适应不同场景的需求。

总的来说，CAG在知识任务中展现出的潜力不容小觑。它告诉我们：有时候，跳出“检索”这个思维定式，用更简单的缓存策略反而能带来更好的效果。这或许会给自然语言处理领域的研究和应用带来新的方向。

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：缓存增强生成或将替代RAG成为知识任务新宠要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://www.53ai.com/news/RAG/2025010846890.html

ai 人工智能

上一篇：Dify案例分享：基于文本模型实现Fine-tune语料构造工作流

下一篇：EdgeRAG检索增强生成开启边缘智能新时代

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

延伸阅读

iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态真我828真粉节揭晓：10000mAh超大电池手机即将亮相？苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套刘志强：京东方坚持开放合作，拒绝低质低价竞争 Redmi K90系列全系标配5000万长焦与3D超声波指纹，配置再升级 vivo X300系列曝光：天玑9500+2亿像素主摄，长焦微距实力升级

日榜
周榜
月榜

01 / 08-26iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 02 / 08-26iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 03 / 08-26真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 04 / 08-26苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别 05 / 08-27对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套

01 / 本周Huddlenow Insights 谷歌Meet商业企业视频会议服务全方位深度解析 02 / 本周一款实用的YouTube视频高亮标注Chrome浏览器扩展插件 03 / 本周WhisperNotes智能音频笔记应用 04 / 本周Sharpen AI：Chrome扩展秒转Google Meet为笔记邮件任务 05 / 本周字节将河马爱学并入豆包构筑AI产品全家桶

01 / 本月Huddlenow Insights 谷歌Meet商业企业视频会议服务全方位深度解析 02 / 本月一款实用的YouTube视频高亮标注Chrome浏览器扩展插件 03 / 本月WhisperNotes智能音频笔记应用 04 / 本月Sharpen AI：Chrome扩展秒转Google Meet为笔记邮件任务 05 / 本月字节将河马爱学并入豆包构筑AI产品全家桶

热点快看

07-02 14:27Huddlenow Insights 谷歌Meet商业企业视频会议服务全方位深度解析 07-02 14:27一款实用的YouTube视频高亮标注Chrome浏览器扩展插件 07-02 14:27WhisperNotes智能音频笔记应用 07-02 14:27Sharpen AI：Chrome扩展秒转Google Meet为笔记邮件任务 07-02 14:26字节将河马爱学并入豆包构筑AI产品全家桶

热点追踪

持续追踪iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 持续追踪iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 持续追踪真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 持续追踪苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别