教大语言模型RAG何时检索与有效利用技巧

AI热点日报时间：2026-05-31

热点解读

ADAPT-LLM使大语言模型学会主动判断何时需要信息检索：若已知则直接回答，未知则生成⟨RET⟩标签触发检索。基于模型零样本回答对错构建训练数据，在PopQA测试中准确率优于永不检索与始终检索基线，与基于流行度阈值方法相当但泛化更强。检索系统质量仍是性能瓶颈。

这篇论文的核心贡献在于提出了ADAPT-LLM——一个能够“审时度势”的大语言模型。它不再依赖参数记忆来硬解所有问题，而是学会了主动判断：面对一个问题，模型是否已有答案？如果没有，便不再勉为其难，而是立即转向参考资料（即执行信息检索，IR）。

首先需要说明一下背景。在问答（QA）领域，大语言模型的表现越来越亮眼，尤其在自然问题（NQ）和SQuAD等经典数据集上，成绩持续攀升。然而，业界使用大模型做问答通常只有两条路径：要么采用“闭卷考试”模式，仅依靠模型内部存储的知识；要么采用“开卷考试”模式，为模型配备检索系统，需要素材时便主动查询。

一条路走到底未必是最优解。此前有研究团队利用PopQA数据集进行测试，发现大模型对“热门”问题采用闭卷考效果尚可，但一旦问题变得冷门，就必须借助检索系统来“救场”。他们的思路是设定一个热度阈值：超过该阈值就不检索，低于该阈值则检索。这一方法虽然有效，但问题在于很多数据集并不提供“热度分”，难以推广。

ADAPT-LLM 旨在解决这种“一刀切”的尴尬局面。它不依赖任何外部评分，而是让模型自己学会判断。具体怎么做呢？其推理流程相当简洁：当一个问题被抛出，模型先“过一遍脑子”，如果确定能解决，就直接给出答案；如果心里没底，它就会生成一个特殊标签——⟨RET⟩，表示“需要查阅资料”。系统收到这个信号后，立即调用检索工具（例如Contriever），将最相关的段落捞取回来，连同问题一起输入模型，最终得出答案。

要让模型学会这种判断，关键在于训练数据的构建。以PopQA为基准，研究者使用了NQ和SQuAD这两个经典数据集作为训练原料。他们先让基础版Llama-2模型进行零样本回答所有问题，观察哪些能答对，哪些答错。

如果答对了，就认为模型“知道”这个答案，训练时指示它直接做出回答。
如果答错了，说明模型“不知道”，此时需要构造两类训练样本：一类是让它主动生成⟨RET⟩标签，表示需要检索；另一类是让它结合检索到的上下文来学习回答。

这样一来，ADAPT-LLM 从根本上就分清了“我知道”和“我不知道”两种状态。随后在PopQA上的测试也证实了这一点——那些模型选择“不检索”即回答的问题，准确率高达62%以上，远高于那些强行作答的基准模型。

为了验证这套自适应检索（ADAPT-LLM）的效果，研究者设置了两个对照组：一个叫“永不检索（NR-LLM）”，所有问题都自己扛，绝不使用外部资料；一个叫“始终检索（AR-LLM）”，每个问题都先去查询。在Llama-2 7B的底座上，三个模型均采用相同参数（Alpaca-LoRa配置）在NQ和SQuAD上进行微调，随后在PopQA上真刀真枪地对比。

结果非常说明问题。在NQ和SQuAD两个训练集上，ADAPT-LLM 的准确率均超过了两个对照组。尤其是在SQuAD上训练后，ADAPT-LLM 达到了38.15%，远高于AR-LLM的36.59%。至于NR-LLM，因为过于“硬莽”，表现最差。这也再次印证了一个道理：大模型的知识储备并非万能。

一个有趣的发现是，ADAPT-LLM 在PopQA上大约有82%-83%的问题都申请了“检索支援”，比例相当高。对照NR-LLM那惨淡的准确率（不到15%），说明大多数问题确实需要外部信息。但更关键的是，ADAPT-LLM 在这些“申请检索”的问题上，准确率能直接翻倍，从十来个百分点提升到33%以上。这表明它的判断并非随意猜测，而是真实有效的。

当然，这里也暴露了一个潜在瓶颈——检索系统本身还不够完美。实验中一个细节值得注意：如果使用数据集自带的“黄金段落”来回问题，效果非常好；但一旦换成Contriever这个检索工具，性能就大幅下降（在SQuAD上甚至掉了67个百分点）。这说明当前的信息检索系统捞回来的段落未必是最有用的。换句话说，ADAPT-LLM 虽然知道“该查资料了”，但查回来的资料质量拖了后腿。如果能像一些成熟的开放域QA系统那样，检索多个段落并进行综合分析，效果应该还能再上一个台阶。

最后，研究者将ADAPT-LLM 与主流方法（基于流行度阈值的方法）进行了正面交锋。那个方法需要在PopQA上抽取75%的数据来调试出一个最优阈值，相当于“开卷考”。而ADAPT-LLM 训练时完全没有使用PopQA的数据，属于“闭卷考”。即便如此，在相同的测试集上，两者的表现旗鼓相当。这一点极具说服力——ADAPT-LLM 的泛化能力更强，它学到的是“判断逻辑”，而非死记硬背某个数据集的“评分偏好”。

总的来说，ADAPT-LLM 为大语言模型指明了一条务实的道路：与其硬撑着当百科全书，不如学会聪明地求助。这或许就是未来大模型与检索系统深度融合的雏形。

论文链接：https://arxiv.org/pdf/2404.19705
论文标题：When to Retrieve: Teaching LLMs to Utilize Information Retrieval Effectively

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：教大语言模型RAG何时检索与有效利用技巧要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://www.53ai.com/news/qianyanjishu/2381.html

ai 人工智能

上一篇：腾讯元宝写朋友圈长文提示词如何精准描述目标用户

下一篇：Kimi教你通过联网搜索趋势策划直播脚本

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

延伸阅读

iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态真我828真粉节揭晓：10000mAh超大电池手机即将亮相？苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套刘志强：京东方坚持开放合作，拒绝低质低价竞争 Redmi K90系列全系标配5000万长焦与3D超声波指纹，配置再升级 vivo X300系列曝光：天玑9500+2亿像素主摄，长焦微距实力升级

日榜
周榜
月榜

01 / 08-26iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 02 / 08-26iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 03 / 08-26真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 04 / 08-26苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别 05 / 08-27对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套

01 / 本周佑驾创新与乐动机器人达成战略合作共谋发展 02 / 本周Meta出售算力非清库存，市场需求驱动付费意愿 03 / 本周大仓AI工程化实战从Vibe Coding到Harness 04 / 本周MCP Toolbox部署前别急着动手 05 / 本周基金公司遭突击检查传闻被知情人士辟谣

01 / 本月佑驾创新与乐动机器人达成战略合作共谋发展 02 / 本月Meta出售算力非清库存，市场需求驱动付费意愿 03 / 本月大仓AI工程化实战从Vibe Coding到Harness 04 / 本月MCP Toolbox部署前别急着动手 05 / 本月基金公司遭突击检查传闻被知情人士辟谣

热点快看

07-16 23:00佑驾创新与乐动机器人达成战略合作共谋发展 07-16 23:00Meta出售算力非清库存，市场需求驱动付费意愿 07-16 23:00大仓AI工程化实战从Vibe Coding到Harness 07-16 22:59MCP Toolbox部署前别急着动手 07-16 22:59基金公司遭突击检查传闻被知情人士辟谣

热点追踪

持续追踪iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 持续追踪iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 持续追踪真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 持续追踪苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别