面包屑图标 当前位置: 首页
AI资讯
热点详情

全量召回式检索增强大模型:从整本书提取长对象列表

AI热点日报
AI热点日报时间:2026-05-31
热点解读

对于从长文本提取长对象列表的任务,提出L3X方法,分为召回导向生成和精确导向审查两阶段。前者通过检索大量段落并迭代优化生成候选列表,后者保守识别高置信度对象并剔除不可靠项。在10本书8种关系上的实验表明,该方法在召回率和R@P指标上优于仅用大语言模型的方法。

首先,我们了解一下相关背景。信息抽取(Information Extraction,简称IE)的核心目标,是从非结构化文本中挖掘出结构化数据。而关系抽取作为IE的关键子任务,主要识别实体之间的特定语义关联。当前基于神经网络的深度学习方法在精确度方面表现优异,但也存在明显短板——召回率往往有所折损,即对相关实体的全面识别能力不足。更棘手的是,这些方法大多只适用于单个段落,面对整本书、多页网页等长篇文本时,几乎束手无策。因此,一个自然衍生出的问题便是:我们能否从长文本中提取出与特定主题相关的长对象列表?

从长篇内容中提取长列表的典型场景

以“哈利·波特”主题为例,目标是从整个系列书籍中完整找出57位朋友角色。由于信息分散在数百页的文本中,这绝非易事。

L3X:两阶段长列表提取方案

针对这一难题,研究人员提出了L3X方法(即基于语言模型的长列表抽取)。其核心思想可分解为两个阶段:

第一阶段:召回导向的生成

这一阶段的关键词是“海选”。具体做法是:围绕当前主题及关系,向大型语言模型(LLM)提供提示,促使其尽可能生成一份完整的目标对象列表。同时,通过信息检索系统从长文本中挖掘出那些看似有希望的候选段落,并将其纳入LLM的提示中。与以往检索增强型LLM的思路不同,此阶段会检索大量段落(例如针对某个SPO三元组可检索多达500个),并精心挑选最匹配的段落用于模型提示。此外,这一过程并非一次性完成——它会迭代地对段落重新排序,并反复让LLM生成,从而不断优化初始对象列表。简而言之,先宽进,把可能相关的内容都纳入,再逐步筛选。

第二阶段:精确导向的审查

在第一步获得高召回率的候选对象列表后,接下来进入“严出”环节。该阶段的目标是精准验证与修剪。它采用偏保守的技术,专门识别高置信度的对象,找到对应的支持段落,同时重新评估那些可信度存疑的候选对象,最终剔除不合格者。

实验效果与总结

在新构建的数据集(包含10本书、8种不同关系类型)上进行的实验表明,L3X方法在召回率和R@P指标上全面优于仅依赖LLM生成的方法。换言之,该方法能够有效从长篇文档中提取出较长的对象列表。当然,通过优化提示策略、段落排序以及批处理技术,其性能还有进一步提升的空间。

论文地址:
Recall Them All: Retrieval-Augmented Language Models for Long Object List Extraction from Long Documents
https://arxiv.org/pdf/2405.02732

热点追踪提示词
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:全量召回式检索增强大模型:从整本书提取长对象列表要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
来源:https://www.53ai.com/news/qianyanjishu/2029.html
ai 人工智能

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关热点
AI热点2026-05-31 15:22
豆包AI故事情节老套无新意?教你提升创意技巧

从根本上来说,AI生成故事容易陷入同质化——角色设定千篇一律、叙事线性推进、反转套路雷同,归根结底是提示词过于宽泛,缺少有效的约束与激发机制。其实破解方法一直存在,关键只在于找准方向——核心就是“约束”。 下面五类方法,正是为了帮助AI突破惯性轨道,真正进入创意生成的新空间。 一、注入非常规叙事视角

AI热点2026-05-31 15:19
通义千问组件文档提示词减少重复表达方法

为通义千问组件文档编写提示词时,需禁用解释性句式,使用“组件名+动词+宾语”短句,强制术语统一并分段限定字数与格式。排除高频模板,通过术语锚点绑定行为约束,可有效减少重复表达。

AI热点2026-05-31 15:18
CodeBuddy写Kafka与Redis实时数据处理代码可靠吗

在使用 CodeBuddy 生成涉及 Kafka 与 Redis 的实时数据处理代码时,若遇到逻辑不通、配置遗漏或运行时异常,不必急于否定工具——问题的根源通常是模型对消息语义边界或缓存一致性策略的把握不够精确。本文将分享几条经过实战验证的修正路径,形成从人工校验到工具链调用的完整闭环,帮助提升代码

AI热点2026-05-31 15:17
纳米AI写周报指南,三分钟生成高质量工作总结

周报这东西,写起来烦,不写又不行。尤其是项目多、节奏快的时候,光是把这周干了什么、下周计划什么梳理清楚,就已经耗掉不少精力。其实,用纳米AI工具来搞定周报,完全可以三分钟出一篇高质量版本。关键是路径要对。 先说最直接的方法:用内置模板指令触发自动生成。现在不少办公平台,比如钉钉智能文档、飞书妙记,都

延伸阅读