教大语言模型RAG何时检索与有效利用技巧
ADAPT-LLM使大语言模型学会主动判断何时需要信息检索:若已知则直接回答,未知则生成⟨RET⟩标签触发检索。基于模型零样本回答对错构建训练数据,在PopQA测试中准确率优于永不检索与始终检索基线,与基于流行度阈值方法相当但泛化更强。检索系统质量仍是性能瓶颈。
这篇论文的核心贡献在于提出了ADAPT-LLM——一个能够“审时度势”的大语言模型。它不再依赖参数记忆来硬解所有问题,而是学会了主动判断:面对一个问题,模型是否已有答案?如果没有,便不再勉为其难,而是立即转向参考资料(即执行信息检索,IR)。
首先需要说明一下背景。在问答(QA)领域,大语言模型的表现越来越亮眼,尤其在自然问题(NQ)和SQuAD等经典数据集上,成绩持续攀升。然而,业界使用大模型做问答通常只有两条路径:要么采用“闭卷考试”模式,仅依靠模型内部存储的知识;要么采用“开卷考试”模式,为模型配备检索系统,需要素材时便主动查询。
一条路走到底未必是最优解。此前有研究团队利用PopQA数据集进行测试,发现大模型对“热门”问题采用闭卷考效果尚可,但一旦问题变得冷门,就必须借助检索系统来“救场”。他们的思路是设定一个热度阈值:超过该阈值就不检索,低于该阈值则检索。这一方法虽然有效,但问题在于很多数据集并不提供“热度分”,难以推广。
ADAPT-LLM 旨在解决这种“一刀切”的尴尬局面。它不依赖任何外部评分,而是让模型自己学会判断。具体怎么做呢?其推理流程相当简洁:当一个问题被抛出,模型先“过一遍脑子”,如果确定能解决,就直接给出答案;如果心里没底,它就会生成一个特殊标签——⟨RET⟩,表示“需要查阅资料”。系统收到这个信号后,立即调用检索工具(例如Contriever),将最相关的段落捞取回来,连同问题一起输入模型,最终得出答案。
要让模型学会这种判断,关键在于训练数据的构建。以PopQA为基准,研究者使用了NQ和SQuAD这两个经典数据集作为训练原料。他们先让基础版Llama-2模型进行零样本回答所有问题,观察哪些能答对,哪些答错。
- 如果答对了,就认为模型“知道”这个答案,训练时指示它直接做出回答。
- 如果答错了,说明模型“不知道”,此时需要构造两类训练样本:一类是让它主动生成
⟨RET⟩标签,表示需要检索;另一类是让它结合检索到的上下文来学习回答。
这样一来,ADAPT-LLM 从根本上就分清了“我知道”和“我不知道”两种状态。随后在PopQA上的测试也证实了这一点——那些模型选择“不检索”即回答的问题,准确率高达62%以上,远高于那些强行作答的基准模型。
为了验证这套自适应检索(ADAPT-LLM)的效果,研究者设置了两个对照组:一个叫“永不检索(NR-LLM)”,所有问题都自己扛,绝不使用外部资料;一个叫“始终检索(AR-LLM)”,每个问题都先去查询。在Llama-2 7B的底座上,三个模型均采用相同参数(Alpaca-LoRa配置)在NQ和SQuAD上进行微调,随后在PopQA上真刀真枪地对比。
结果非常说明问题。在NQ和SQuAD两个训练集上,ADAPT-LLM 的准确率均超过了两个对照组。尤其是在SQuAD上训练后,ADAPT-LLM 达到了38.15%,远高于AR-LLM的36.59%。至于NR-LLM,因为过于“硬莽”,表现最差。这也再次印证了一个道理:大模型的知识储备并非万能。
一个有趣的发现是,ADAPT-LLM 在PopQA上大约有82%-83%的问题都申请了“检索支援”,比例相当高。对照NR-LLM那惨淡的准确率(不到15%),说明大多数问题确实需要外部信息。但更关键的是,ADAPT-LLM 在这些“申请检索”的问题上,准确率能直接翻倍,从十来个百分点提升到33%以上。这表明它的判断并非随意猜测,而是真实有效的。
当然,这里也暴露了一个潜在瓶颈——检索系统本身还不够完美。实验中一个细节值得注意:如果使用数据集自带的“黄金段落”来回问题,效果非常好;但一旦换成Contriever这个检索工具,性能就大幅下降(在SQuAD上甚至掉了67个百分点)。这说明当前的信息检索系统捞回来的段落未必是最有用的。换句话说,ADAPT-LLM 虽然知道“该查资料了”,但查回来的资料质量拖了后腿。如果能像一些成熟的开放域QA系统那样,检索多个段落并进行综合分析,效果应该还能再上一个台阶。
最后,研究者将ADAPT-LLM 与主流方法(基于流行度阈值的方法)进行了正面交锋。那个方法需要在PopQA上抽取75%的数据来调试出一个最优阈值,相当于“开卷考”。而ADAPT-LLM 训练时完全没有使用PopQA的数据,属于“闭卷考”。即便如此,在相同的测试集上,两者的表现旗鼓相当。这一点极具说服力——ADAPT-LLM 的泛化能力更强,它学到的是“判断逻辑”,而非死记硬背某个数据集的“评分偏好”。
总的来说,ADAPT-LLM 为大语言模型指明了一条务实的道路:与其硬撑着当百科全书,不如学会聪明地求助。这或许就是未来大模型与检索系统深度融合的雏形。
论文链接:https://arxiv.org/pdf/2404.19705
论文标题:When to Retrieve: Teaching LLMs to Utilize Information Retrieval Effectively
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:教大语言模型RAG何时检索与有效利用技巧要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点影刀魔法指令通过自然语言生成RPA自动化任务,支持调试、对话或源码修改,运行稳定。该工具降低技术门槛,适用于非技术用户、分析师、运维等,免费提供,助力提升超自动化效率。
WeChatMsg工具可提取本地微信聊天记录,导出为网页、Word、Excel等格式,支持还原聊天界面与生成年度社交报告,并可利用聊天数据训练专属AI助手,实现历史检索与话题分析,操作简单且保护隐私,适用于个人数据备份与知识管理。
AI在实验室的应用包括加速药物研发与临床决策、工业缺陷检测与设备维护、天文数据处理及流程智能化。案例显示,实验错误率降低,效率提升,成本节省,如缺陷检测假点去除率超60%,天文数据处理性能提升两个数量级。
用通义万象生成游戏角色概念图,关键在于掌握正确的提示词沟通技巧。许多人反映AI出图不稳定、画风偏离预期或细节模糊,这通常是因为提示词撰写过于随意。要稳定输出高质量、专业可用的游戏角色概念图,以下五种经过实战验证的方法值得参考。 下面直接分享核心要点。 一、结构化提示词:快速生成高质量游戏角色概念图草
- 日榜
- 周榜
- 月榜
热点快看
