DeepRAG智能检索MDP精准消除事实幻觉准确率提升22%
DeepRAG将检索增强推理建模为马尔可夫决策过程,动态决定每一步是否检索外部知识。通过二叉树搜索和模仿学习优化推理路径,并借助校准链提升知识边界感知。实验表明,该方法在五个数据集上将回答准确率提升21 99%,同时显著降低检索成本。
大型语言模型在执行推理任务时,常常遭遇事实性幻觉,尤其是在面对时间敏感或多跳推理场景时表现尤为突出。单纯依赖参数化知识,覆盖面有限;而将全部期望寄托于检索增强生成(RAG),又往往面临任务分解不充分、检索冗余等问题,反而引入噪声,拖累回答质量。如何破解?DeepRAG 提供了一种颇具启发性的思路——将检索增强型推理建模为动态决策的马尔可夫过程。

本文提出 DeepRAG,一个将检索增强型推理形式化为马尔可夫决策过程(MDP)的框架。它通过迭代分解查询,动态决定每一步是检索外部知识,还是依赖参数化推理。实验表明,DeepRAG 在提升检索效率的同时,将回答准确性提高了 21.99%,充分证明了其在优化检索增强型推理方面的有效性。
DeepRAG 核心方法
DeepRAG 的核心设计十分简洁:不再机械地“先检索再回答”,而是将整个推理过程拆解为策略性的决策链条。具体来说,它完成了以下几项关键工作:
马尔可夫决策过程建模
首先,它将问题分解、原子决策和最终答案生成这一整套流程,形式化定义为一个 MDP,包含状态、动作、转移概率与奖励函数。每个状态对应问题的一个部分解,动作则在“直接回答”和“检索外部知识”之间做出选择。这样一来,检索便转化成了一个可优化、可学习的策略问题。
二叉树搜索
为了找到最优推理路径,DeepRAG 实现了一种巧妙的二叉树搜索方法。对于每个子查询,模型并非武断地决定是否检索,而是同时探索两种策略:直接利用参数知识作答,或检索外部文档后再作答。通过这种“两条腿走路”的探索方式,它能够评估不同选择对最终答案的影响,从而筛选出成本最低、效果最佳的路径。
模仿学习
有了二叉树搜索出的高质量路径,接下来便进入模仿学习阶段。核心算法维护一个优先队列,按检索成本排序所有可能的推理轨迹,优先处理成本更低的路径。它不断从队列中取出最优轨迹,生成下一个子查询,并根据情况决定是直接回答还是继续检索。
校准链
为了让模型更清楚地认识自身的“知识边界”,DeepRAG 引入了校准链。通过合成偏好数据,训练模型判断何时应该检索、何时应当信任内部知识。该过程包含一个巧妙的损失函数,用于调节模型偏离基线策略的惩罚力度,从而学会在“直接回答”与“检索回答”之间做出最合理的权衡。
实验设计
实验部分选用了五个开放域问答数据集,其中 HotpotQA 和 2WikiMultihopQA 用于训练,测试集涵盖 HotpotQA、2WikiMultihopQA、CAG、PopQA 和 WebQuestions。为公平对比,选取了 CoT、IterDRAG、FLARE、AutoRAG 等十种主流方法作为基线。在实现细节上,采用 BM25 作为检索模型,知识库为维基百科片段;基础模型则选择了 Llama-3-8B-Instruct 和 Qwen-2.5-7B。
结果与分析
从结果来看,DeepRAG 在所有测试场景中均超越了现有方法。与最先进的基线相比,它在各个数据集上表现出稳定提升,这绝非偶然。
在检索效率方面,DeepRAG 在保持高准确率的同时,大幅降低了检索成本。相比之下,纯粹的置信度方法在不同数据集上表现极不稳定,而迭代检索方法往往需要大量检索操作,效率堪忧。
针对“是否需要检索”的判断,DeepRAG 的 F1、平衡准确率和 MCC 指标均十分亮眼,说明它精准识别了检索的必要性。反观 FLARE、DRAGIN 等方法,虽然回答准确率不低,但在避免无谓检索方面表现欠佳。
一个有意思的发现是:完全依赖内部知识效果最差,而完全依赖外部知识虽然准确率高,但检索成本巨大。DeepRAG 通过自适应地选择内部与外部知识源,表现优于任何单一策略。
从问题分解的角度看,大多数问题需要 3 到 5 步分解,而检索尝试主要集中在 0 到 2 轮。这表明 DeepRAG 能够有效拆解问题,同时将冗余检索降到最低。
消融研究进一步证实了每个模块的价值。模仿学习阶段(DeepRAG-Imi)虽然在时间敏感的 CAG 数据集上稍弱,但平均性能更优。而校准链阶段,则在保持低检索成本的前提下,提升了整体回答质量。
DeepRAG 与现有 RAG 的区别
比完效果,更值得关注的是它究竟“新”在哪里:
- 动态与策略性检索:不再机械地遇到问题就检索,而是通过 MDP 将检索建模为动态决策过程,每一步均有策略地判断是否需要。这是根本性的思路转变。
- 二叉树搜索:向前探索多种策略路径,而非一条路走到黑。这使得模型能够从“事后”视角评估不同检索选择对最终答案的影响。
- 知识边界校准:通过校准链,让模型更清晰地感知自身知识边界。它不依赖外部不确定性度量,而是通过合成数据与偏好数据训练,让模型自主学习“何时该查资料”。
- 减少冗余检索:由于判断更精准,不必要的检索自然大幅减少,既提升了效率,也降低了引入噪声的风险。
- 端到端训练:整个框架采用端到端训练,不依赖额外参数或不可靠的不确定性指标,完全利用 LLM 自身的生成能力来探索知识边界。
- 多步推理:通过不断分解与决策,天然支持多步推理。这对于处理复杂、需要多跳思考的问题至关重要。
这些特征结合在一起,使得 DeepRAG 在处理需要多步推理和时间敏感的问答任务时,表现尤为出色。
总结
总体而言,DeepRAG 通过自校准方式,显著提升了 LLM 对检索需求的感知能力。它将查询拆解为子查询,利用二叉树搜索合成高质量数据,帮助模型理解自身知识边界。实验结果十分明确:在准确性和效率上均实现了显著提升。可以说,它为检索增强生成提供了一种强有力的新框架。
不足与反思
当然,没有完美的框架。DeepRAG 在大多数场景下表现优异,但在时间敏感的 CAG 数据集上,相比某些自适应检索方法仍有差距。这也指明了未来方向:如何在处理时间敏感和多跳事实问答时,进一步优化检索策略,提升模型的鲁棒性与准确性,将是下一步需要攻克的关键难题。
问答
DeepRAG 是如何通过二叉树搜索构建推理路径的?
具体流程非常清晰:对于给定问题,模型先拆解出第一个子查询,然后同时探索两种回答策略——要么依靠自身“内存”,要么到外部文档中“查找”。每走一步,都会依据当前状态和设定好的策略,递归地执行相同操作,直到生成最终答案或达到迭代上限。通过这种方式,DeepRAG 不仅将问题分解为一连串前向依赖的子查询,还彻底审视了“检索”这一步对最终答案的真实影响,确保了推理的连贯性和检索的有效性。
模仿学习阶段是如何利用二叉树搜索合成数据的?
这个过程可视为“淘金”。首先,初始化一个按检索成本排序的优先队列。模型从队列中取出当前成本最低的路径,生成下一个子查询,然后决定是直接回答还是检索。每走一步,新生成的路径和结果都会被放回队列继续排队。重复此过程,直到队列耗尽,或找到一条能生成正确答案的路径为止。最终收集到的,就是那些检索成本最低的优质推理轨迹。用这些数据微调模型,优化的核心在于“何时终止”和“如何选择动作”这两个关键决策。
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:DeepRAG智能检索MDP精准消除事实幻觉准确率提升22%要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点一加Turbo6X开售,含标准版与Pro版,起售价1499元,国补价1274 15元。搭载天玑7360SUPER和7400SUPER,144Hz屏,7000 8000mAh电池,主打长续航高性价比。
蔚来汽车近日上市了2026款ET5、ET5T和EC6的冠军纪念版车型。新车主打赛道竞速设计风格,提供专属外观内饰与智能座舱主题。最大的亮点在于推出了BaaS电池租用方案,ET5 ET5T租电版起售价20 5万元,EC6租电版起售价26 5万元,大幅降低了购车门槛。车辆在底盘方面进行了针对性调校,提升
微软射击游戏《战争机器:E-Day》公布PC配置要求,将于2026年10月发售。配置清单引人注目地将尚未发布的RTX5050和RX9060显卡列为最低要求,同时兼容多款现有中端显卡。游戏需130GB固态硬盘空间,最低要求12GB内存和六核CPU。官方未明确对应画质与帧数,但推测将依赖超分辨率技术
软科近日发布2026年中国大学专业排名,覆盖1132所高校的3万余个专业点。排名显示,北京大学以93个A+专业位居榜首,清华大学和哈尔滨工业大学分列二、三位。榜单同时引入“A+专业精度”指标,中国人民公安大学以93 8%的精度领先。此外,北京大学、吉林大学、武汉大学在上榜专业总数上位列前三。该排名从
- 日榜
- 周榜
- 月榜
热点快看
