面包屑图标 当前位置: 首页
AI资讯
热点详情

缓存增强生成或将替代RAG成为知识任务新宠

AI热点日报
AI热点日报时间:2026-06-29
热点解读

当RAG不再是唯一选择:CAG如何用缓存碘伏知识检索 说到检索增强生成(RAG),很多做自然语言处理的朋友都不陌生——它通过动态拉取外部知识来提升大模型的回答质量,在开放域问答和专业任务中表现抢眼。但RAG也有自己的烦恼:检索延迟、文档选择出错、系统架构复杂,这些都是实际落地时绕不开的坎儿。最近有一

当RAG不再是唯一选择:CAG如何用缓存碘伏知识检索

说到检索增强生成(RAG),很多做自然语言处理的朋友都不陌生——它通过动态拉取外部知识来提升大模型的回答质量,在开放域问答和专业任务中表现抢眼。但RAG也有自己的烦恼:检索延迟、文档选择出错、系统架构复杂,这些都是实际落地时绕不开的坎儿。最近有一篇论文提出了一种全新的思路——缓存增强生成(CAG),干脆跳过了实时检索这个环节,用预计算的KV缓存来替代,听起来是不是有点碘伏?

研究背景

RAG之所以流行,是因为它能让模型像查资料一样,实时从外部知识库中获取最新信息。但问题也出在这里:每一次查询都要走一遍检索、排序、融合的流程,延迟自然就上去了;文档召回质量不稳定,选错了段落会直接带偏答案;再加上系统集成复杂,维护成本居高不下。与此同时,长上下文大语言模型(LLMs)的能力在快速提升,它们处理超长文本输入的效率越来越高——这为绕过检索环节提供了新的可能性。

关键洞察在于:既然模型自己能记住足够长的上下文,为什么还要每次去检索呢?预先把相关知识加载到上下文中,让模型一次读完所有信息,不就能省去检索的麻烦吗?CAG正是基于这个想法诞生的。

方法介绍

CAG框架

CAG的核心流程分为三个阶段,每一步都扣得挺紧:

  1. 外部知识预加载:把与应用场景相关的文档集合D进行预处理和格式化,让它能塞进模型的扩展上下文窗口里。然后利用LLM(参数θ)处理D,生成预计算的键值(KV)缓存,存储在磁盘或内存中供后续使用。注意:这个处理D的计算成本只需要一次,后续所有查询都能复用。
  1. 推理:用户查询Q到来时,直接将预计算的KV缓存和Q一起加载到LLM中。模型利用缓存的上下文生成响应。这一步彻底消除了检索延迟——因为知识已经提前准备好了,模型只需在已有上下文基础上做推理,不存在检索错误的风险,同时也能确保对外部知识和用户查询的统一理解。
  2. 缓存重置:多次推理过程中,KV缓存会随着新令牌追加而增长。为了保持性能,可以高效地重置缓存——通过截断新追加的令牌来实现快速重新初始化,无需从磁盘重新加载整个缓存。这有点像清空临时文件,但成本极低。

相比传统RAG,CAG的优势很明显:推理时间大幅缩短(没有实时检索)、统一上下文带来更一致的响应质量、系统架构简化降低了开发和维护成本。当然,前提是外部知识的总量不能超出模型的上下文窗口——这是目前的主要限制。

实验设置与结果

实验设置

论文在斯坦福问答数据集(SQuAD)1.0和HotPotQA上进行了实验。为了研究参考文本长度对检索难度的影响,每个数据集都构建了三个不同参考文本长度的测试集。硬件平台是Tesla V100 32G×8 GPUs,基础LLM选用Llama 3.1 8B指令模型。CAG通过预计算的KV缓存预加载数据集上下文。

基线系统

对比的RAG系统基于LlamaIndex实现,包含两种检索策略:BM25稀疏检索和OpenAI密集检索。每个数据集分别评估,检索系统只从对应数据集中获取段落。

实验结果

1. 答案质量

如【表格2】所示,CAG在大多数情况下拿到了最高的BERTScore,全面超越了传统RAG系统。原因很简单:预加载整个测试集的上下文,彻底消除了检索错误,模型可以对所有相关信息进行整体推理。在RAG可能检索到不相关或不完整段落的场景下,CAG的优势尤其突出。

2. 生成时间

【表格3】的数据更直观:CAG显著减少了生成时间,而且参考文本越长,优势越大。这是因为预加载的KV缓存省去了实时处理参考文本的成本,同时完全绕过了检索阶段——相比RAG,相当于省掉了“查资料”这一步。

研究总结与展望

随着长上下文LLMs的成熟,CAG这种思路为重新思考传统RAG工作流程提供了有力依据。当然,论文强调消除检索延迟,但未来也可以探索混合方案——比如预加载基础上下文后再结合选择性检索,在效率和灵活性之间找到更优平衡点,适应不同场景的需求。

总的来说,CAG在知识任务中展现出的潜力不容小觑。它告诉我们:有时候,跳出“检索”这个思维定式,用更简单的缓存策略反而能带来更好的效果。这或许会给自然语言处理领域的研究和应用带来新的方向。

热点追踪提示词
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:缓存增强生成或将替代RAG成为知识任务新宠要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
来源:https://www.53ai.com/news/RAG/2025010846890.html
ai 人工智能

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关热点
AI热点2026-07-02 14:27
Huddlenow Insights 谷歌Meet商业企业视频会议服务全方位深度解析

GoogleMeet是面向商业与企业的视频会议服务,支持屏幕共享、实时字幕及与GoogleWorkspace集成,适用于项目讨论、网络研讨和线上教学等多种会议场景,具备扎实的安全与隐私保护。

AI热点2026-07-02 14:27
一款实用的YouTube视频高亮标注Chrome浏览器扩展插件

Lanter是Chrome扩展,利用AI将YouTube视频语音转为带时间戳的文字笔记,支持一键抓取高光、自动标点排版、书签管理、全局搜索及每日邮件汇总,方便高效回顾视频关键内容。

AI热点2026-07-02 14:27
WhisperNotes智能音频笔记应用

一款AI驱动的Chrome扩展音频笔记应用,支持录音自动转文字、标签分类与全文搜索,将语音转化为可检索的数字资产,显著提升信息定位与管理效率。

AI热点2026-07-02 14:27
Sharpen AI:Chrome扩展秒转Google Meet为笔记邮件任务

专为GoogleMeet设计的AIChrome扩展,实时转录会议内容,自动生成摘要并提取行动项与决策,无缝同步至Google文档、任务及Gmail,省去手动整理时间,显著提升协作效率。

延伸阅读