Agentic RAG革新文档推理：解决AI复杂文档解析难题

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

Agentic RAG革新文档推理：解决AI复杂文档解析难题

热心网友时间：2026-03-16

转载

新智元报道

编辑：LRST

【新智元导读】DeepRead让AI像人一样阅读文档：利用OCR识别章节结构，先精准定位相关段落，再完整读取上下文，避免碎片化检索。实验显示，其长文档问答准确率提升17%，能自动跳过冗余信息，精准提取财报、论文等复杂内容，无需额外知识图谱，轻量高效。

大语言模型的工具使用能力正推动RAG从静态的一次性检索，向自主、多轮的证据获取进化，Agentic RAG已成为解决复杂问答任务的核心方向。

但现有主流Agentic Search框架普遍存在一个关键痛点——结构盲：它们将长文档视为无差别的扁平文本块，忽略了文档原生的层级组织（如章节、段落）和顺序逻辑，导致检索碎片化、证据遗漏、冗余操作等问题频发。

比如说，人类查询「ACL论文投稿要求」时，会先翻阅目录找到「投稿指南」章节，再逐段精读关键信息。

但传统Agentic Search（如Search-o1）却只能通过不断给出新的query反复检索，可能遗漏「页码限制」「格式要求」等未被关键词覆盖的内容，还会重复获取已浏览过的片段。

这种「结构盲」带来三大问题：

证据碎片化：将文档拆分为固定大小的文本块，破坏语义连贯性，迫使智能体拼接零散片段；

检索冗余：缺乏全局结构认知，反复检索同类信息，浪费计算资源；

信息遗漏：依赖关键词匹配，无法捕获章节内隐含的相关信息。

而现代OCR技术已能精准提取文档的层级结构和阅读顺序，这为解决「结构盲」提供了基础——让智能体学会利用这些原生结构，而非忽视它们。

中国科学院计算技术研究所团队提出的DeepRead，核心创新是将文档结构转化为智能体可理解、可操作的坐标系统，通过两大工具协同实现类人推理，整体框架参考下图。

论文：https://arxiv.org/abs/2602.05014

代码：https://github.com/Zhanli-Li/DeepRead

文档结构建模：给每个段落分配「坐标」

DeepRead首先通过OCR工具将原始文档转化为结构化Markdown格式，构建双维度结构模型：

层级维度：区分标题（如章节）和内容段落，记录标题的父子关系（如「2.方法」包含「2.1模型设计」）；

顺序维度：给每个段落分配唯一坐标（doc_id, sec_id, para_idx），即「文档ID-章节ID-段落索引」，让每个文本片段都有明确的位置标识。

同时，DeepRead会将轻量化的目录（TOC）注入系统提示，让智能体掌握全局结构，无需加载全量文档内容，平衡上下文开销与结构感知能力。

两大核心工具：Retrieve与ReadSection的协同

DeepRead为智能体配备两个互补工具，模拟人类「快速定位+深度阅读」的行为：

Retrieve（扫描式定位）：接收语义查询，返回Top-K相关段落及其坐标，同时支持「扫描窗口」（在召回的段落加上前后各1段），模拟人类快速浏览上下文的行为；

ReadSection（聚焦式阅读）：接收坐标范围（如doc_id=1, sec_id=3, start_para=0, end_para=5），返回该范围内的连续、保序段落，重构完整语义上下文，彻底解决碎片化问题。

两者形成闭环：Retrieve负责「找方向」，快速锁定相关章节；ReadSection负责「深挖掘」，获取完整证据，避免关键词检索的局限性。

涌现行为：自主学会「定位再阅读」

无需手动编码规则或是特定指令，DeepRead可自主进化出类人推理策略：先通过Retrieve获取结构锚点，再调用ReadSection精读相关章节。实验显示，90%以上的查询会遵循这一范式，且工具调用比例会自适应任务特性——ContextBench（长文档推理）更依赖ReadSection，FinanceBench（金融数据提取）更依赖Retrieve。