全量召回式检索增强大模型：从整本书提取长对象列表

AI热点日报时间：2026-05-31

热点解读

对于从长文本提取长对象列表的任务，提出L3X方法，分为召回导向生成和精确导向审查两阶段。前者通过检索大量段落并迭代优化生成候选列表，后者保守识别高置信度对象并剔除不可靠项。在10本书8种关系上的实验表明，该方法在召回率和R@P指标上优于仅用大语言模型的方法。

首先，我们了解一下相关背景。信息抽取（Information Extraction，简称IE）的核心目标，是从非结构化文本中挖掘出结构化数据。而关系抽取作为IE的关键子任务，主要识别实体之间的特定语义关联。当前基于神经网络的深度学习方法在精确度方面表现优异，但也存在明显短板——召回率往往有所折损，即对相关实体的全面识别能力不足。更棘手的是，这些方法大多只适用于单个段落，面对整本书、多页网页等长篇文本时，几乎束手无策。因此，一个自然衍生出的问题便是：我们能否从长文本中提取出与特定主题相关的长对象列表？

从长篇内容中提取长列表的典型场景

以“哈利·波特”主题为例，目标是从整个系列书籍中完整找出57位朋友角色。由于信息分散在数百页的文本中，这绝非易事。

L3X：两阶段长列表提取方案

针对这一难题，研究人员提出了L3X方法（即基于语言模型的长列表抽取）。其核心思想可分解为两个阶段：

第一阶段：召回导向的生成

这一阶段的关键词是“海选”。具体做法是：围绕当前主题及关系，向大型语言模型（LLM）提供提示，促使其尽可能生成一份完整的目标对象列表。同时，通过信息检索系统从长文本中挖掘出那些看似有希望的候选段落，并将其纳入LLM的提示中。与以往检索增强型LLM的思路不同，此阶段会检索大量段落（例如针对某个SPO三元组可检索多达500个），并精心挑选最匹配的段落用于模型提示。此外，这一过程并非一次性完成——它会迭代地对段落重新排序，并反复让LLM生成，从而不断优化初始对象列表。简而言之，先宽进，把可能相关的内容都纳入，再逐步筛选。

第二阶段：精确导向的审查

在第一步获得高召回率的候选对象列表后，接下来进入“严出”环节。该阶段的目标是精准验证与修剪。它采用偏保守的技术，专门识别高置信度的对象，找到对应的支持段落，同时重新评估那些可信度存疑的候选对象，最终剔除不合格者。

实验效果与总结

在新构建的数据集（包含10本书、8种不同关系类型）上进行的实验表明，L3X方法在召回率和R@P指标上全面优于仅依赖LLM生成的方法。换言之，该方法能够有效从长篇文档中提取出较长的对象列表。当然，通过优化提示策略、段落排序以及批处理技术，其性能还有进一步提升的空间。

论文地址：
Recall Them All: Retrieval-Augmented Language Models for Long Object List Extraction from Long Documents
https://arxiv.org/pdf/2405.02732

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：全量召回式检索增强大模型：从整本书提取长对象列表要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://www.53ai.com/news/qianyanjishu/2029.html

ai 人工智能

上一篇：利用Kimi联网调研进行竞争对手定价分析

下一篇：剪映AI书店氛围视频提示词如何完整表达限制条件

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

延伸阅读

iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态真我828真粉节揭晓：10000mAh超大电池手机即将亮相？苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套刘志强：京东方坚持开放合作，拒绝低质低价竞争 Redmi K90系列全系标配5000万长焦与3D超声波指纹，配置再升级 vivo X300系列曝光：天玑9500+2亿像素主摄，长焦微距实力升级

日榜
周榜
月榜

01 / 08-26iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 02 / 08-26iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 03 / 08-26真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 04 / 08-26苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别 05 / 08-27对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套

01 / 本周佑驾创新与乐动机器人达成战略合作共谋发展 02 / 本周Meta出售算力非清库存，市场需求驱动付费意愿 03 / 本周大仓AI工程化实战从Vibe Coding到Harness 04 / 本周MCP Toolbox部署前别急着动手 05 / 本周基金公司遭突击检查传闻被知情人士辟谣

01 / 本月佑驾创新与乐动机器人达成战略合作共谋发展 02 / 本月Meta出售算力非清库存，市场需求驱动付费意愿 03 / 本月大仓AI工程化实战从Vibe Coding到Harness 04 / 本月MCP Toolbox部署前别急着动手 05 / 本月基金公司遭突击检查传闻被知情人士辟谣

热点快看

07-16 23:00佑驾创新与乐动机器人达成战略合作共谋发展 07-16 23:00Meta出售算力非清库存，市场需求驱动付费意愿 07-16 23:00大仓AI工程化实战从Vibe Coding到Harness 07-16 22:59MCP Toolbox部署前别急着动手 07-16 22:59基金公司遭突击检查传闻被知情人士辟谣

热点追踪

持续追踪iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 持续追踪iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 持续追踪真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 持续追踪苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别