MAXSHAPLEY:RAG上下文归因优化与解决方案解析
我们提出一种名为 MAXSHAPLEY 的方案,这是一种专为 RAG 系统设计的“最大-求和”效用函数,旨在将 Shapley 归因的计算复杂度从指数级降至线性水平。该方案仅消耗传统暴力计算法 6%–7% 的 token 资源,就能保持高达 0.79+ 的 Kendall-τ 相关性以及与人工标注 0.9+ 的一致性水平,为实现生成式搜索的“按贡献计费”提供了一套具备可行性的落地算法。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
MAXSHAPLEY 的核心在于“先拆解要点、再取最大值、最后线性求 Shapley”这三步策略,成功将原本学术性的公平归因工具,转变为可在线上实际运行的高效方案。这为“AI 搜索—内容方”之间的利益重新分配,提供了第一条可扩展的技术路径。具体实现方式如下:
一、行业痛点
生成式搜索(如 Perplexity、Gemini 等)让用户能够实现“即问即答”,但这同时导致用户跳过原始网页,造成内容方的流量锐减。据 Bain 公司估计,到 2025 年,已有 80% 的用户将 40% 的时间停留在 AI 生成的摘要页面,而不再点击信息来源。流量消失即意味着广告收入的流失,出版机构将此类事件称为“灭绝级危机”,相关诉讼也不断涌现(如《纽约时报》诉 OpenAI、Chegg 诉 Google)。现有研究主要聚焦于“上下文归因”的可解释性,并未解决“谁该分多少钱”这一关乎公平补偿的实际问题;而传统的 Shapley 值计算虽在理论上公平,其 O(m2^m) 的复杂度在毫秒级响应的搜索场景中是完全无法接受的。二、本文核心贡献
本文提出了 MAXSHAPLEY 方法,这是一种专为 RAG 设计的“最大-求和”效用函数。它成功将 Shapley 值归因的计算复杂度从指数级降至线性级别,其 token 消耗仅为暴力计算法的 6%–7%,却能保持 0.79+ 的 Kendall-τ 强相关性与 0.9+ 的人工标注一致性,为生成式搜索的“按贡献付费”模式提供了一个可实际部署的算法基础。
图片
整体流程遵循“检索 → 生成 → 归因”三阶段,将三条大型语言模型的链路进行解耦,即使是黑盒模型也可适用。
三、方案速览
方案基于一个关键直觉:“同一要点内的文档相互竞争,不同要点间的文档则彼此协作”。通过 max 操作天然去除冗余信息,在满足公平公理的同时,确保了计算过程的可分解性。
图片

上图横轴为 token 消耗量,纵轴为与人工标注的 Jaccard 一致性指数:MAXSHAPLEY 仅用 6% 的 token 消耗,其精度就已追平完全版 Shapley 的 0.83 水平,而 KernelSHAP 需要 8 倍以上的 token 量才能达到相近效果。
四、实验亮点
数据方面使用了HotPotQA、MuSiQUE、MS MARCO(经过人工二次标注,共30题以降低噪声)。评估指标涵盖 Jaccard@K、Kendall-τb、token成本/美元/运行时间。在达到相同 Jaccard 指数时,MAXSHAPLEY 比 KernelSHAP 节省 8–10 倍的 token 消耗;
Kendall-τb > 0.79(强相关),Jaccard > 0.9;
在完整版 MuSiQUE 数据集(共2417题)上表现依然稳健,即便随着“跳跃数”增加,性能略有下降但并未崩溃。
五、落地补偿机制
直接分成:平台从其订阅或广告收入中,按归因比例划拨一定金额给内容提供方。此模式适用于学术出版、企业知识库等供应方有限的场景。 广告代理:将来源方的广告素材,按其归因权重投放在生成式结果页面上,沿用现有广告生态,平台无需自建支付通道。 二次拍卖:以 MAXSHAPLEY 计算出的分数作为内容方的“被动出价”,与广告主在同一竞价市场中进行拍卖,平台收取结算差价。六、局限性与未来方向
使用 LLM 作为评估者对措辞敏感,即使是温度参数设为 0 也非完全确定;未考虑多来源交叉验证带来的“置信度叠加”效应;目前的方案将关键要点视为同一扁平层次,未来可引入层次分解以处理更复杂的推理逻辑;对抗风险防范:内容农场可能通过制造“AI 偏好型文本”来套利,需要配合内容质量过滤机制。资源传送门:
MAXSHAPLEY: Towards Incentive-compatible Generative Search with Fair Context Attribution
论文地址:https://arxiv.org/pdf/2512.05958
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
AI 的记忆不是硬盘——从 40 个真实 Bug 说起
这是 AI 认知架构实战笔记 系列的第 2 篇 上一篇我们聊了「给 AI 写灵魂文件」这件事,这一篇,我们来看看,当这份灵魂文件真正运转起来之后,现实究竟会给我们带来多少“惊喜”——或者更准确地说,是漏洞。项目名为 WorkBuddy-Configure,已部署在 gitee 和 gitcode 上
OpenClaw给每个Agent单独指定workspace
OpenClaw中为每个Agent配置独立工作区的最佳实践 在大模型智能体协作平台上,实现多个Agent之间的文件隔离是确保项目管理井然有序的关键需求。如果您正在使用OpenClaw平台,为不同角色的智能体分配专属工作空间可以有效避免文件冲突、权限混乱等问题。本指南将详细介绍在OpenClaw中为每
OpenClaw更新操作
前言 对于 OpenClaw 的忠实用户而言,每一次版本迭代都意义非凡。新功能密集、改动幅度大是它的显著特点,这固然令人欣喜,但伴随而来的更新操作也时常会遇到一些预料外的状况。本文旨在系统梳理我们在升级过程中遇到的常见问题与解决方案,帮助您在下次更新时更加顺畅,有效规避不必要的麻烦。 一、OpenC
openclaw源码
项目资源与开源社区 对于希望深入研究OpenClaw技术生态的开发者与研究者,以下几个核心的开源仓库提供了关键的切入点和持续更新的资源集合。 首先,OpenClaw项目的主仓库位于: https: github com openclaw openclaw 这里是所有核心代码、文档和官方进展的枢纽,
关停 Sora 后 OpenAI 转身收购 TBPN 播客,亲自下场做媒体
OpenAI关闭Sora后战略转向:收购TBPN播客,深度布局内容生态 四月初的科技界新闻不断,一则来自科技媒体9to5Mac的报道引发了行业的强烈关注。OpenAI在近期宣布正式收购知名科技商业播客品牌The Browser Pane。这一战略动作紧随其视频应用Sora的停止运营之后,被外界普遍视
- 日榜
- 周榜
- 月榜
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程

