英伟达颠覆性成果重新定义RAG外部检索必要性

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

英伟达颠覆性成果重新定义RAG外部检索必要性

热心网友时间：2026-05-14

转载

说到RAG（检索增强生成），大家可能已经习惯了它的标准工作流程：先用一个检索模型从海量文档里捞出一批“相关”内容，再交给大语言模型去消化、生成答案。这个流程看似顺畅，但其实一直埋着一个根本性的问题，只是我们习以为常了。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

这个问题就是：检索器和生成器，其实是在两个完全不同的“世界”里工作。

检索器，无论是BM25还是BGE、ColBERT，它们在一个“嵌入表示空间”里计算相似度打分。而生成器，也就是我们的大模型，则是在Transformer的“隐藏状态空间”里理解和处理文本。这就导致了一个尴尬的局面：检索器觉得“高度相关”的文档，到了生成器那里，可能根本派不上用场。学术界管这叫“检索器-生成器失配”，它一直是RAG性能天花板上的那道裂缝。

那么，有没有更本质的解法？最近NVIDIA的一项研究INTRA，就提出了一个直指核心的设问：既然Transformer的注意力机制，本质上就是一种“基于查询的信息选择”，那我们为什么不让模型自己，用它的注意力机制，去检索它自己编码好的信息呢？

INTRA的解题思路：让注意力机制“身兼两职”

注意力 = 检索？一个被忽视的等式

我们先拆解一反赌意力计算的核心：给定一个查询（Query），它与一系列键（Key）进行匹配打分，然后根据分数对值（Value）进行加权聚合。再看检索的核心：给定一个问题（Query），在一堆文档（Keys）中找到最相关的。

你会发现，它们在数学形式上惊人地一致：都是“基于查询的候选状态匹配”。说白了，注意力机制内在地完成了一次检索操作。INTRA所做的，就是把这个理论上的等式，变成了一个可运行的工程系统。

它的实现路径非常清晰：

首先，用一个编码器把整个知识库的所有文本块预编码成一组固定的键状态（Keys）存储起来。

然后，在输入问题后面附加几个可训练的“检索标记”。在解码生成时，这些标记对应的解码器交叉注意力查询（Query），会直接对全库所有预编码的键状态进行相似度打分（采用了类似ColBERT的MaxSim方式）。

最后，选出分数最高的前N个文本块，直接使用它们同一份预编码的状态作为解码器的上下文，进行答案生成。

整个过程，只需要对解码器做两次前向传播，且共享同一份编码状态。外部检索器？不需要。对检索到的文本重新编码？也省了。

RQWK：一个巧妙的工程“魔术”

当然，这里有个工程难题。标准Transformer每一层都有自己的Key投影矩阵，这意味着如果按层存储编码状态，开销会从O(M)暴增到O(L×M)，根本无法承受。

INTRA的解决方案是一个名为“Reverse-QWK”的巧妙技巧。它把Key的投影操作，从编码侧移到了查询侧。简单来说，不再为每一层存储不同的Key表示，而是只存储一份归一化后的基础编码状态。在计算注意力时，对查询向量进行反向的投影变换。

这样做在数学上完全等价，却让所有解码层都能共享同一份编码表示。于是，检索时的相似度计算和生成时的注意力计算，终于严格地在同一个表示空间里完成了——检索与生成实现了真正的统一。

小训练，大效果：预训练能力的“释放”

仅训练16.4万参数

INTRA最令人惊讶的一点是它的训练效率。在一个40亿参数的T5Gemma2模型上，它选择冻结了编码器和解码器的全部参数。

只训练什么？仅仅是那几个“检索标记”的嵌入向量，加上一个用于聚合各层检索信号的小权重矩阵。全部加起来，大约是16.4万个参数。

训练目标也极其简洁：让这些检索标记的注意力概率，尽可能集中在那些能回答问题的“黄金证据”文本块上。

如此微小的训练量就能取得显著效果，这强烈暗示了一点：强大的检索能力，可能本就内蕴于经过高质量预训练的大模型之中。INTRA所做的，更像是一种“能力释放”，为模型提供了一个利用自身注意力进行检索的接口。

推理效率：一次编码，多次复用

从流程上对比，优势也很明显：

传统RAG需要三步：检索文本 -> 重新编码文本 -> 解码生成。

INTRA只需两步：检索预编码状态 -> 直接解码生成。

对于企业常见的静态知识库（如产品文档、法规条文），所有文档的编码状态只需计算一次并存储，之后面对海量用户查询均可直接复用。虽然存储开销（例如千亿token语料量化后可能达TB级）不容忽视，但对于许多企业级场景而言，这已是可接受的工程权衡。

实战表现：在多跳推理任务中脱颖而出

在HotPotQA、2WikiMultihopQA、MuSiQue等多个需要多步推理的多跳问答基准测试中，INTRA在“完整证据召回率”这项关键指标上，全面超越了9种主流检索基线。这包括：

传统的稀疏检索方法（如TF-IDF、BM25）；
先进的密集检索模型（如BGE-large、Qwen3-Embedding系列）；
专业的重排序器（如Jina Reranker）；
以及混合检索和ColBERT风格基线。

为什么在多跳场景下优势如此明显？关键在于，INTRA的检索信号直接来自解码器的注意力权重。这些权重天然编码了“生成当前答案需要什么信息”的意图。对于需要串联多个证据才能回答的问题，解码器的查询状态能够感知这种递进式的信息需求，从而引导系统检索出所有必要的证据片段。

相比之下，在单跳问答（如Natural Questions）上，其优势就不那么突出。因为这类问题通常只需一个直接相关的段落，INTRA所擅长的多证据协同检索能力没有太多用武之地。

一个更深刻的发现：统一空间比强大组件更重要

实验还有一个值得玩味的发现。研究者引入了一个“差距闭合度”的指标，来衡量检索系统能在多大程度上弥补“随机检索”与“完美检索”之间的性能鸿沟。

结果发现，使用同一个T5Gemma2解码器同时负责检索和生成时，差距闭合度最高。即使换用更强大的生成器（如Qwen2.5-7B/72B），虽然答案的绝对准确率上升了，但差距闭合度反而下降了。

这背后的逻辑是：更强的生成器有自己的注意力模式，INTRA为原配解码器检索的证据，可能与新生成器的注意力模式不完全匹配。这个结果进一步印证了INTRA的核心思想：让检索和生成在同一个表示空间内协同工作，比单纯组合一个强力检索器和一个强力生成器，往往更有效。

写在最后

所以，INTRA的核心贡献并非否定RAG，而是挑战了RAG的“分裂架构”。它指出了一个被长期忽视的真相：注意力机制本身就是检索。当我们让模型用自己的注意力查询去检索自己的编码表示时，检索器与生成器之间的“失配”问题便自然消解了，多跳推理的证据组装也因此变得更加精准和高效。

当然，当前的工作仍有局限，例如其基于T5Gemma2这类编码器-解码器架构，而目前开源生态中主流的强大模型多为仅解码器架构。但如果这个方向被证明是可行的，未来更强大的编码器-解码器模型，或许能让INTRA所代表的“内在检索”思路展现出更大的潜力。

Retrieval from Within: An Intrinsic Capability of Attention-Based Models
https://arxiv.org/pdf/2605.05806

来源:https://www.51cto.com/article/843195.html

上一篇：蚂蚁灵波开源LingBot-VLA训练代码 150条数据适配新机器人

下一篇： Anthropic突破AI记忆瓶颈数学原理实现类人脑智能记忆

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

热门专题

刀塔传奇破解版无限钻石下载大全

洛克王国正式正版手游下载安装大全

思美人手游下载专区

好玩的阿拉德之怒游戏下载合集

不思议迷宫手游下载合集

百宝袋汉化组游戏最新合集

jsk游戏合集30款游戏大全

宾果消消消原版下载大全

日榜
周榜
月榜

洛克王国星之路位置与前往方法详解

洛克王国龙须小径位置与前往路线详解

洛克王国家园解锁方法详细步骤指南

洛克王国水晶神殿进入方法及问题解决

洛克王国吹笛子动作使用教程

我的世界基岩版自定义NPC制作与召唤指令教程

洛克王国雷电迷踪活动地图位置详解

光与影远征队布料获取与衣物制作材料教程

洛克王国钓鱼馆位置与前往路线详解

像素火影网页版正版免费入口官方在线畅玩地址

小米汽车推出寻天子品牌增程车型将改变家用车市场格局

博德之门3轻语武器获取方法全攻略

梦幻魔法公主游戏金币速刷攻略与赚钱技巧详解

王者荣耀世界东方曜技能连招与出装铭文搭配指南

东吴水军训练营招募指南帅哥美女如何加入江东水师

生存33天宠物搭配指南与选择技巧详解

异环聆谕水晶获取方法与使用技巧详解

全球固态电池融资活跃去年至今五十七笔四十六家企业获投资

英雄联盟愚人节活动更新内容与玩法全解析

携程裁员30%传闻官方回应称系正常人才盘点

《问剑长生》新大区预创角开启，是什么福利让玩家直呼夯爆了？

紧急！Axios 被投毒，3亿项目受到影响！教你怎么自查！

兆易创新2025年年营收92亿元，净利16亿元

TensorFlow - AI开发平台,AI开发框架

解决sql server2008注册表写入失败，vs2013核心功能安装失败

《九牧之野》S3乱世诡道主题服开启：4月18日上线，预备盟奖励与开服福利一文看懂

donk：对待季军赛的心态和决赛不一样，总之已经拿不到冠军了

iPhone 15耳机连接后音量小原因排查与解决

蛮荒领主手游测试资格获取方式蛮荒领主内测资格申请渠道与条件详解

极狐S3预告发布：三电可选、宽体运动设计，2026北京车展亮相

相关攻略

2015-03-10 11:25

《炎龙骑士团2》详细全攻略

2015-03-10 11:05

《东吴霸王传2013》详细全关攻略

2021-08-04 13:30

《臭作》之100%全完整攻略

2015-03-10 11:22

《兰斯8》剧情攻略详细篇

2015-03-10 12:39

《英雄坛说》详细全攻略

2022-05-16 18:57

《造梦西游2：十殿阎罗篇》BOSS档案及掉落装备全介绍及攻略

2025-05-23 13:43

偷窃少女的教育方法全攻略

2025-05-23 14:01

无法抵挡小恶魔的诱惑攻略

热门教程

游戏攻略
安卓教程
苹果教程
电脑教程

暗黑破坏神4第13赛季调谐石词缀全览发布于 2026-05-14

CrazyGames官网在线游戏入口免费网页游戏即点即玩发布于 2026-05-14

GTA6发售日期最新官方消息公布发布于 2026-05-14

万象棱狱星币收集日限时活动攻略发布于 2026-05-14

植物大战僵尸读报僵尸怎么打克制方法与实战技巧发布于 2026-05-14

CrazyGames官方网页版在线免费游戏入口发布于 2026-05-14

鬼使白刷新位置在哪阴阳师鬼使白获取攻略发布于 2026-05-14

7K7K小游戏官网入口：手机电脑免下载直接玩发布于 2026-05-14

只狼全成就攻略与白金奖杯速通指南发布于 2026-05-14

2026年类似魔兽世界的网游推荐与合集盘点发布于 2026-05-14

新版宝石骑士上单出装攻略助你成为英雄联盟不败战神发布于 2026-05-14

兰陵王打野出装攻略最新高胜率装备搭配推荐发布于 2026-05-14

2026年数据恢复软件排行榜十大热门工具推荐发布于 2026-05-14

一窝蜂武器使用指南掌握游戏最强输出神器技巧发布于 2026-05-14

伊莉丝角色强度解析与实战玩法全攻略发布于 2026-05-14

五音启太平永久战力提升全攻略发布于 2026-05-14

Mac清理系统字体与磁盘优化技巧发布于 2026-05-14

Win10硬盘分区表查看方法：快速确认GPT与MBR格式发布于 2026-05-14

Mac清理Flutter构建缓存教程苹果电脑释放磁盘空间发布于 2026-05-14

苹果电脑Mac快速合并视频片段剪辑教程发布于 2026-05-14

统信UOS鼠标宏设置教程提升办公效率实用指南发布于 2026-05-14

Linux端口占用解决方法与强制结束进程命令教程发布于 2026-05-14

Windows 11 如何开启 AV1 硬件编码以提升视频处理效率发布于 2026-05-14

Mac清理Google Drive缓存教程苹果电脑释放存储空间方法发布于 2026-05-14

国产内存新架构突破30TB带宽实现自主供应链发布于 2026-05-11

Edge浏览器网页捕获功能使用教程截取全屏与区域截图详解发布于 2026-05-11

千度手机版官网免费入口手机端专用访问链接发布于 2026-05-11

ES文件浏览器复制文件内容到剪贴板详细步骤教程发布于 2026-05-11

如何设置鼠标连点器的固定点击间隔秒数发布于 2026-05-11

苹果iPhone 15截屏保存到相册的详细步骤教程发布于 2026-05-11

立升净水器滤芯更换方法与使用指南发布于 2026-05-11

ES文件浏览器如何设置默认打开应用详细图文教程发布于 2026-05-11

热门话题

魔术游戏下载-魔术游戏-2022热门的魔术小游戏大全

刀塔传奇破解版在哪下-刀塔传奇破解版无限钻石下载大全-刀塔传奇破解版内购破解版合集

饥荒下载免费中文版-饥荒下载破解版-饥荒正版全部版本下载合集

拉布布游戏下载-拉布布游戏合集-拉布布系列游戏大全合集

洛克王国手游正版下载-洛克王国正版手游下载安装大全-类似洛克王国的手机游戏推荐

神魔幻想单机游戏下载-神魔幻想单机游戏推荐-神魔幻想系列游戏下载合集

最受女生欢迎的游戏_女生玩的手游_思美人手游下载专区

疯狂越野系列游戏下载_疯狂越野全版本合集中文版下载

神庙逃亡2破解无限金币无限钻石下载-神庙逃亡2国际版破解大全-神庙逃亡2版本合集

英伟达颠覆性成果重新定义RAG外部检索必要性