Adobe研究院推出双重核查机制确保大语言模型输出内容有据可查

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

Adobe研究院推出双重核查机制确保大语言模型输出内容有据可查

热心网友时间：2026-05-15

转载

这项由Adobe与Adobe Research团队联合开展的研究，以预印本形式于2026年4月23日发布，论文编号为arXiv:2604.21193。

AI也会

如今，我们频繁地与各类AI助手互动——无论是日常提问、辅助写作，还是在寻求医疗建议或法律分析时依赖它们。这些AI通常表现得自信而流畅，逻辑清晰，仿佛无所不知。然而，一个不容忽视的隐患是：它们有时会“一本正经地胡说八道”，生成看似合理实则完全错误的信息，且“编造”时与陈述事实时同样镇定自若。

这一现象在学术上被称为“幻觉”（Hallucination），指AI生成内容听起来合理但事实错误。在日常对话中，这可能无伤大雅；但在医疗诊断、法律咨询、科学研究等高利害领域，一个错误陈述可能导致严重后果。正是为了应对这一核心挑战，Adobe研究团队构建了一套名为DA VinCI的创新框架。其名称既致敬了文艺复兴全才达·芬奇（Da Vinci），也是其核心功能“双重归因与验证推断”（Dual Attribution and Verification in Claim Inference）的缩写。

理解DA VinCI的核心思路，可以类比一个生活场景：当朋友告诉你一件事，你如何判断其可信度？你可能会追问“你的消息来源是什么？”，然后自行核实该来源是否可靠，最后结合朋友一贯的可信度综合判断。DA VinCI的工作流程与此类似：它首先要求AI为其陈述提供“证据”，然后由一个独立的“验证器”评估证据与陈述是否一致，最后还会输出一个置信度评分。若评分过低，系统会主动声明“信息不足”，而非强行给出可能错误的结论。

该框架在FEVER和CLIMATE-FEVER两个权威事实核查数据集上进行了验证，成功将分类准确率与F1分数提升了5%至20%。下面，我们将深入解析这套系统的工作原理及其各个组件的关键作用。

一、AI为何会产生“幻觉”并表现得如此自信？

要理解DA VinCI所解决的问题，首先需洞察大语言模型（LLM）的本质。

可以将大语言模型想象成一个阅读了海量文本的“超级语言模仿者”。它通过预测“下一个最可能的词”来生成文本，这一过程赋予了它出色的语言流畅性。但关键在于，它在生成时，内部并没有一个独立的“事实核查模块”进行把关。它本质上是在进行基于统计概率的词语接龙——选择那些在语言模式中最常紧随其后的词汇进行输出。

因此，当模型遇到其知识边界或不确定的问题时，它不会回答“我不知道”，而是倾向于生成一段在语言风格上最像“标准答案”的文字。这好比一个考前突击的学生，遇到不会的题目时，根据对题型和语气的感知，编造一段听起来正确的答案——有时侥幸蒙对，有时则完全是无中生有。

这一问题在高风险领域尤为致命。研究援引了大量先前工作指出：从新闻生产、科学写作到法律文书分析，人们对AI输出内容的依赖日益加深，但AI自身的“事实约束”机制却严重滞后。现有解决方案各有局限：有的系统只检索信息而不判断真伪；有的只判断真伪却不提供依据。更关键的是，多数系统将“证据检索”和“事实验证”视为两个孤立的步骤，未能让二者形成协同增强的闭环。DA VinCI的创新之处，正是将这两个环节深度融合，让“检索什么”与“如何判断”相互反馈、彼此优化。

二、DA VinCI的双引擎架构：归因模块与验证模块

DA VinCI的工作流程犹如一套严谨的新闻编辑室核查程序，包含两个紧密协作的核心环节。

第一环节是“归因”，即证据查找。当系统接收到一个待核查的陈述（例如“卡罗琳·肯尼迪是美国人”）时，归因模块的任务是找出与此陈述最相关的证据文本。研究团队为此设计了两种策略，以应对不同的实际应用场景。

第一种策略称为“全证据归因”，即直接使用完整的证据段落。在FEVER和CLIMATE-FEVER数据集中，每个陈述都配有经过人工标注的标准证据文本，系统可直接调用，不做任何裁剪。以上述例子为例，证据文本为：“卡罗琳·布维尔·肯尼迪（生于1957年11月27日）是一位美国作家、律师和外交官，曾于2013年至2017年担任美国驻日本大使。”基于这段完整证据，“她是美国人”这一陈述可被标记为“支持”。

第二种策略称为“基于片段的归因”，这更贴近现实世界的复杂情况。现实中，我们往往没有现成的标准答案，只有大量可能相关的文档。此时，系统会调用一个基于RoBERTa架构的专用问答模型，将待核查陈述视为“问题”，从候选证据库中抽取最相关的一段文字作为“答案”。这种方法的优势在于能精确定位关键信息，但缺点在于可能丢失重要的上下文，后续实验结果也印证了这一点。

简言之，全证据归因好比获得了一份完整的调查报告，所有线索一目了然；而基于片段的归因则像仅能从报告中摘取几句关键引文，脱离上下文后可能产生歧义，判断难度自然更大。

第二环节是“验证”，即事实判定。归因模块找到证据后，该证据会与原始陈述一并送入一个“自然语言推理”（NLI）模型。该模型的任务是判断：给定这段证据，原始陈述是“被支持的”、“被反驳的”，还是“证据不足”？

系统的输入格式简洁明了：[陈述] [分隔符] [归因证据]。模型会为这个组合输出一个分类标签，同时给出一个介于0到1之间的置信度分数——分数越高，表示模型对判断越有把握。

研究团队测试了四种不同的验证模型，包括微软的DeBERTa-large、Meta的RoBERTa-large、Meta的BART-large，以及一个在多个推理数据集上联合训练过的RoBERTa-large模型。通过对比这些模型的表现，团队旨在评估DA VinCI框架的通用性与鲁棒性，而非仅为某个特定模型优化。

三、置信度重校准：为“不确定性”提供安全出口

DA VinCI最具特色的设计之一，是其置信度重校准机制。

在没有此机制的情况下，验证模型会对每个输入都强制输出一个确定性的答案（支持、反驳或证据不足）。但现实中存在大量“灰色地带”：证据模糊、陈述存在歧义，或检索到的证据本身就不充分。此时，模型仍会输出一个“勉强”的答案，但其内在的不确定性会反映在较低的置信度分数上。

DA VinCI的做法是设定一个阈值τ（默认值为0.6）：如果模型输出的置信度分数低于此阈值，无论其原始标签是什么，都会被强制更改为“信息不足#”（“#”符号表示此为经过重校准的结果）。这相当于为系统设置了一条安全底线：只有当你有足够把握时，才能做出断言；否则，诚实地承认“我不确定”远比提供一个可能错误的答案更有价值。

这种设计蕴含着深刻的实践智慧。回到新闻核查的比喻：一位负责任的编辑在证据不足时，会选择报道“此事尚待核实”，而非冒险发布一篇可能失实的报道。DA VinCI的重校准机制正是将这种职业准则内化到了系统的决策逻辑中。

对于存在多条证据的情况，DA VinCI会汇总各条证据的验证结果，通过多数投票或加权平均的方式得出最终判断，从而提升系统的整体鲁棒性，避免被单条低质量证据误导。

研究团队还系统测试了不同阈值（0.7, 0.8, 0.9）对系统性能的影响，以探索精确率与召回率之间的最佳平衡点。这部分内容将在后续的消融实验中详细讨论。

四、测试基准：两个专为事实核查设计的权威数据集

为客观评估DA VinCI的性能，研究团队选择了事实核查领域两个广受认可的数据集。

FEVER数据集是该领域的经典基准，其陈述来源于维基百科，每条陈述均被人工标注为“蕴含”（支持）、“矛盾”（反驳）或“中立”，并附有对应的证据句子。实验使用的子集包含2287条样本，三类标签分布均衡。

CLIMATE-FEVER数据集则专注于气候变化这一科学领域，陈述来源于科学文献，标签分为“支持”、“反驳”和“信息不足”三类。该数据集的特殊性在于其极度不均衡的类别分布：在1535条样本中，“信息不足”类高达996条，占比近65%，而“反驳”类仅164条。这种分布更贴近现实——在真实的科学论断中，有大量陈述处于当前证据无法确证的状态。

这两个数据集的组合极具意义：FEVER测试系统在通用知识领域的核查能力，CLIMATE-FEVER则考验其在专业科学语境下的表现。一个真正可靠的事实核查系统，必须能在两种场景下都稳定工作。

五、实验结果：DA VinCI带来的全面性能提升

研究团队将DA VinCI与一个“纯验证基线”进行了对比。该基线直接将完整证据输入验证模型，不进行任何归因处理或置信度重校准。这种对比能清晰揭示DA VinCI各个组件带来的实际增益。

在FEVER数据集上，四个模型经过DA VinCI重校准处理后，性能均获得一致提升。以DeBERTa-large为例，其准确率从0.42提升至0.48，宏观F1分数从0.36提升至0.41，宏观精确率从0.52跃升至0.61。RoBERTa-large-mnli的提升更为显著。其他模型也均有稳定改善。

在CLIMATE-FEVER数据集上，DA VinCI同样带来了跨模型的性能提升。DeBERTa-large的准确率从0.60提升至0.63。RoBERTa-large-mnli的加权F1分数从0.54提升至0.57。所有测试模型都观察到了正向增益。

值得注意的是，在这两个数据集上，经过DA VinCI处理的DeBERTa-large-mnli在精确率指标上表现最为突出。这意味着当其做出判断时，该判断的可靠性很高。同时，即便是基线分数较低的模型，在DA VinCI框架下也获得了显著提升，证明了该框架具有良好的普适性，不依赖于某个特定模型的先天优势。

六、消融实验：剖析核心组件的重要性

消融实验如同拆解一台机器，通过移除单个部件来评估其重要性。DA VinCI的消融实验主要聚焦于两点：比较两种归因策略的优劣，以及分析不同置信度阈值的影响。

全证据归因 vs. 片段归因： 实验结果明确显示，使用完整证据远优于使用提取的片段。在FEVER数据集上，全证据版本比片段版本在准确率上高出9%到18%，F1分数也更稳定。最极端的案例中，宏观F1分数差距可达29个百分点。在CLIMATE-FEVER数据集上，优势同样明显。这揭示了一个关键洞见：事实核查往往依赖于完整的语境理解，断章取义的片段极易导致误判。这对AI信息检索实践提出了明确指导：应优先检索完整的上下文段落。

置信度阈值的影响： 团队测试了0.7、0.8、0.9三个阈值，发现了一个普遍规律：阈值越高，精确率越高（判断更谨慎，错误更少），但召回率越低（漏判增多），整体准确率也随之略有下降。阈值0.7在两个数据集上都提供了精确率与召回率之间的最佳平衡。而阈值0.9则适用于那些“宁可放过，不可错杀”的高风险场景（如医疗诊断），在这些场景中，错误肯定的代价远高于错误否定。

七、局限与未来展望

任何严谨的研究都需正视其局限性，DA VinCI也不例外。

1. 对高质量证据的依赖： DA VinCI的性能建立在能够找到相关且高质量证据的基础上。在实验使用的数据集中，证据是人工标注提供的。但在真实的开放域环境中，系统需从互联网等渠道自动检索证据，检索质量直接制约了验证效果的上限。

2. 验证模型的静态性： 当前使用的NLI模型是静态的预训练模型，可能难以处理需要多步逻辑推理的复杂陈述，或在面对特定领域术语时表现不佳。

3. 缺乏内部归因能力： 目前DA VinCI只能追溯“外部证据”，无法解释AI生成某个陈述的“内部原因”——例如是训练数据中的哪些模式导致了该输出。这种“内部归因”对于从根本上理解和缓解幻觉问题同样重要。

4. 语言覆盖有限： 当前实验仅在英语数据集上进行，对于中文等多语言环境的适用性尚未验证。

5. 阈值需手动调整： 置信度阈值目前为人工设定，在不同领域或任务中可能需要重新调优，缺乏自适应性。

针对这些局限，研究团队指出了未来的改进方向：采用更先进的密集检索器（如DPR、E5）提升证据检索质量；开发多跳推理模块以处理复杂陈述；探索基于提示追踪等技术的内部归因方法；将框架扩展至多语言及低资源语言；以及研究自适应的置信度校准策略。

归根结底，DA VinCI致力于解决一个非常现实的问题：我们日益依赖AI，但AI并非总是可信。该框架的价值不在于让AI更“聪明”，而在于让其更“诚实”——不仅提供答案，还提供答案的依据，并在依据不足时坦然承认不确定性。

实验数据表明，这一设计路径是有效的。在两个基准数据集上，DA VinCI在准确率、精确率、召回率和F1分数上均实现了跨模型的一致提升。更重要的是，其模块化设计意味着，随着未来检索技术与推理模型的进步，DA VinCI的整体性能有望持续提升。

我们正处在AI深入高风险决策领域的关键时期。一个能够说明“依据在此，我有X%的把握”的AI系统，远比一个只给答案、不给理由的“黑箱”系统更值得信赖。

Q&A

Q1：DA VinCI框架与普通的AI事实核查系统有何区别？

普通AI核查系统通常只执行“验证”步骤，即判断陈述真伪。DA VinCI的关键区别在于它将“归因”（查找证据）和“验证”（判断真伪）整合为一个闭环流程，并引入了置信度评分机制。当置信度不足时，系统会主动输出“信息不足”而非强行结论。这使得整个判断过程透明、可追溯，特别适用于医疗、法律等对可靠性要求极高的领域。

Q2：DA VinCI中的置信度阈值是什么意思？普通用户需要关心吗？

置信度阈值（τ）是一个门槛值。当系统对某个判断的把握低于此门槛时，它会将结论自动改为“信息不足”，以避免输出低置信度的答案。研究表明，0.7是两个测试数据集上精确率与召回率的最佳平衡点。若应用于医疗诊断等极高风险场景，可将阈值提高至0.9以最大化精确率（减少误报），但代价是更多陈述会被标记为“不确定”。普通用户在使用基于DA VinCI的产品时，通常无需手动调整，但了解此机制有助于理解系统为何有时会回答“无法确认”。

Q3：DA VinCI框架目前支持中文或其他语言吗？

目前暂不支持。DA VinCI的所有实验均在英语数据集（FEVER和CLIMATE-FEVER）上完成。研究团队已将多语言及低资源语言的扩展列为未来的重点研究方向之一。因此，现阶段该框架主要适用于英语语境，其中文或其他语言的适配与应用需等待后续研究进展。

来源:https://www.techwalker.com/2026/0504/3185748.shtml

上一篇： CMU与纽约大学破解神经网络潜在变量识别难题

下一篇：南京大学商汤科技联合发布手机AI助手开源方案引领行业革新