哈工大与鹏城实验室合作研发AI纠错技术大幅降低视觉幻觉

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

哈工大与鹏城实验室合作研发AI纠错技术大幅降低视觉幻觉

热心网友时间：2026-05-15

转载

这篇论文来自哈尔滨工业大学与鹏城实验室的联合研究团队，于2026年4月发表在arXiv预印本平台，论文编号为arXiv:2604.17982v1。

哈工大联手鹏城实验室：让AI

你是否遇到过这样的情况：让AI助手描述一张图片，它言之凿凿地指鹿为马，或者凭空“脑补”出一些细节？这种现象在业内被称为“视觉幻觉”——模型“看到”了不存在的东西，或“忽略”了实际存在的内容，并将这些错误信息混入回答。

这绝非无关紧要的小毛病。试想，当AI应用于医疗影像分析、自动驾驶环境感知或辅助证据审查时，一个幻觉错误可能带来真实的后果。因此，如何让AI的“视觉”更可靠，一直是研究的热点与难点。

针对这一难题，哈尔滨工业大学与鹏城实验室的研究人员提出了一套名为PSRD的新方案，全称是“基于阶段性自我奖励的解码方法”。他们声称，该方法能将主流视觉语言模型LLaVA-1.5-7B的幻觉率直接降低50%，而且无需重新训练模型或标注海量数据，只需在AI生成回答时进行实时监控与纠正。下面，我们就来深入拆解这项研究。

一、视觉幻觉的根源：AI为何“说谎”？

要理解PSRD的价值，首先得弄清楚视觉幻觉究竟从何而来。

大型视觉语言模型可以粗略理解为兼具“看图”与“说话”能力的系统。它先将图像转换为数字表示，再结合你的问题，交由语言模型生成回答。问题往往出在语言模型这一侧：它的核心训练目标是预测下一个最可能的词。当它生成描述时，注意力会逐渐从图像事实，转移到如何让句子“听起来通顺合理”上。换句话说，强大的语言生成习惯有时会压倒视觉证据，导致模型说出符合逻辑但背离事实的内容。

现有的解决方案大致分为两类。一类是“事后修改派”：让AI先生成完整回答，再用另一个程序检查并修正错误。这好比写完文章再请人批改，效率较低，且修改过程可能引入新错误。另一类是“实时干预派”：在AI生成每个词时都进行干预，注入对比信号来抑制幻觉倾向。这种方法每一步都需额外计算，开销巨大，且对所有位置“一视同仁”的干预，常常在无需调整的地方白费力气，甚至可能损害语言的流畅性。

更重要的是，这两类方法都忽略了一个关键问题：幻觉究竟在哪个环节最容易发生？哈工大与鹏城实验室的团队决定先攻克这个基础问题。

二、发现幻觉的“节奏”：它在固定时刻爆发

研究团队进行了一项基础实验。他们从COCO2014数据集中随机抽取500张图片，让LLaVA-1.5-7B为每张图片生成描述，并仔细分析幻觉在整段描述中的分布规律。

他们将生成的描述切分成连续的“语义阶段”，每个阶段大致对应一个完整的短语或子句，然后统计每个阶段的幻觉发生率。

结果呈现出清晰的模式：整体上，幻觉率随着阶段推进缓慢上升，从第一阶段的14.6%逐渐爬升至第九、十阶段的17%左右。这表明错误存在累积效应，前面的幻觉可能引导后续内容继续出错。

但更关键的发现在于每个阶段内部：幻觉率在阶段开头最高，随后显著下降，到阶段末尾趋于稳定。

可以这样理解：AI描述图像时，如同一个人分段陈述。每当开始一个新话题段落，他最易出错，因为需要同时完成“开启新话题”和“回忆图像内容”双重任务。一旦进入状态，叙述便顺畅许多，错误也随之减少。

这一发现让研究团队意识到：干预幻觉无需“遍地撒网”，只需精准瞄准每个语义阶段的开头即可。这正是PSRD方法的核心直觉来源。

三、构建轻量级“裁判”：将大模型的判断力蒸馏

掌握了幻觉爆发的规律，下一步就是设计一个能在关键时刻自动鉴别并纠正幻觉的工具。

最直接的想法是让大模型自我评判：每生成一段话，就询问模型“这段描述真实吗？”，并根据回答决定是否重写。思路可行，但存在致命缺陷——大模型本身计算庞大，反复自评会使生成过程极其缓慢，完全不实用。

研究团队的解决方案是：利用大模型的判断能力，训练一个轻量得多的“裁判模型”。在实际使用时，只调用这个小裁判，从而避免反复咨询笨重的大模型。整个过程分为三步。

第一步：制造错误样本。要训练能识别幻觉的裁判，首先需要大量幻觉实例。团队采用两种方式刻意诱导AI产生幻觉：一是使用被高斯噪声污染的模糊图像，干扰视觉信号以诱发“脑补”；二是设计特殊提示词，引导模型在描述真实内容后，继续“合理推断”图中不存在的事物。通过这两种方式，他们构建了一个包含约40万条正确描述和4万条含幻觉描述的样本库。

第二步：获取大模型标注。对于样本库中的每段描述，团队将其与对应原始图像一同输入大模型，询问：“描述内容与图像吻合吗？”大模型不仅给出“是/否”判断，还会输出一个置信度分数，即“不确定性信号”。在后续训练中，高置信度样本将获得更高权重，低置信度样本的影响则被削弱。

第三步：训练小裁判模型。裁判模型以CLIP为基础骨架构建，CLIP本身擅长评估图文匹配度，且比大语言模型轻量得多。团队在CLIP基础上，利用前述标注样本及置信度权重，通过三个相互配合的训练目标来打磨这个小裁判。

第一个目标是判别对齐损失，核心是让小裁判能够区分“图文一致”与“含幻觉”的描述，确保正确描述的匹配分数显著高于幻觉描述。第二个目标是边界强化损失，要求正确描述与幻觉描述的匹配分数之间必须存在明显间隔，以增强分辨力。第三个目标是幻觉一致性损失，要求针对同一图像的不同幻觉描述，在特征空间中应聚集在一起，从而使裁判对幻觉的识别更加稳定，不因表达方式不同而波动。

这三个目标的权重分别设定为1.0、2.4和0.1。这一比例并非针对特定测试集微调得出，而是旨在让三项损失在训练初期的数值量级大致相当，确保训练过程均衡，避免任一目标过度主导。

四、实时执裁：PSRD如何在生成中纠错

训练好的小裁判即可投入工作，在AI生成图片描述的过程中进行实时监控。具体而言，每当AI完成一个语义阶段的生成，小裁判便介入评分——它将刚生成的文字与原始图像对比，输出一个“图文一致性分数”，可粗略理解为“这段话的真实性”。

若分数高于预设阈值，则该段落通过，AI继续生成下一阶段。若分数低于阈值，则表明该阶段开头可能存在幻觉，系统启动干预。

干预采用一套名为“侦查-投影”的两阶段搜索策略。侦查阶段，系统并非直接重写，而是先考察几个备选的“起步词”——具体来说，它会检查当前时刻概率最高的前K个候选词（默认K=5），对每个候选词在不额外干预的情况下生成一段描述，并由小裁判评分，选出初始分数最高的作为“种子轨迹”。若最优种子词对应的描述已通过质量门槛，则干预以极小代价结束。

若最优种子词也未通过门槛，则进入投影阶段。此阶段引入一种称为VCD的对比解码技术作为干预工具。该技术通过同时生成“有视觉信息”和“无视觉信息”两个版本的预测，利用其差异来压制不依赖视觉的语言惯性。干预强度由参数α控制，α越大，干预越强。系统会先以小步长探测α增大时分数的变化趋势，估算斜率，再据此预测需要多大的α才能使分数越过门槛，并进行验证。此过程仅需少量尝试即可找到合适强度。系统还会为预测值额外增加10%的余量，以应对奖励函数局部曲率可能为凹的情况，避免线性外推低估调整量。若斜率不稳定或α超出上限，系统则放弃当前候选词，尝试下一个种子词，最终以最佳结果为准。

整个搜索过程严格限制对小裁判的调用次数，确保干预本身的计算成本可控。

五、实验验证：PSRD在五大基准测试中的表现

研究团队在五个公认的幻觉评测基准上全面检验了PSRD，对比对象涵盖了从普通基线到最先进的方法，横跨“需重新训练”与“无需重新训练”两大阵营。

在生成型幻觉测试中，最具代表性的是Object HalBench基准，它评估模型描述中提及了多少图片中根本不存在的物体。PSRD表现突出：CHAIRs指标（描述中至少含一个幻觉物体的比例）从LLaVA-1.5-7B基线的46.3%大幅降至10.1%；CHAIRi指标（所有提及物体中幻觉物体的比例）从22.6%降至4.1%。这一成绩甚至超越了众多需要大量人工标注数据重新训练模型的方法。此前最好的无需重新训练的方法Octopus的成绩为20.8%和6.6%，PSRD显著改写了纪录。

在AMBER综合基准上，PSRD将LLaVA-1.5-7B的CHAIR分数从7.8压低至3.9，降幅恰好50%。幻觉相关的Hal分数从36.4下降至20.1，认知幻觉分数从4.2降至2.0，而反映模型正确识别真实物体能力的Cover分数则保持在48.2，表明PSRD并未因过度纠错而误杀真实内容。

在MMHal-Bench测试（通过GPT-4打分评估回答整体质量）中，PSRD的综合得分从基线的1.55提升至2.92，幻觉比例从0.76下降至0.49，在所有无需重新训练的方法中位列第一。

判别型测试则考察AI面对图像及相关问题时，能否正确回答“是”或“否”。在POPE判别测试的全套子测试上，PSRD将LLaVA-1.5-7B的F1分数提升至86.0，超越了此前最佳的Octopus方法（83.4）。在AMBER判别任务上，F1分数从基线的71.1跃升至85.0，提升了13.9个百分点。

团队还专门验证了PSRD的跨模型泛化能力。他们将基于LLaVA-1.5-7B训练的小裁判模型，直接应用于InstructBLIP-7B和LLaVA-Next-7B，效果同样显著。对于InstructBLIP-7B，CHAIR分数从8.4降至4.4，Hal分数从31.1降至20.9；对于LLaVA-Next-7B，CHAIR从7.1降至4.7，Hal从37.6骤降至21.1；对于更大的LLaVA-1.5-13B，CHAIR从6.7降至4.7，Hal从28.8降至24.1。这种跨模型直接应用仍能取得良好效果的现象表明，小裁判学到的判断能力捕捉了视觉幻觉的某些普遍特征，而非特定模型的“癖好”。

六、切断连锁反应：PSRD如何阻止幻觉传播

研究团队设计了一项特别的分析实验，以量化PSRD在阻止幻觉“滚雪球”方面的效果。

他们定义了一个名为“阶段级幻觉积累速率”的指标，计算相邻两个语义阶段之间幻觉率增长的平均值。该指标越高，说明前面的幻觉越容易引发后续错误，形成多米诺骨&牌效应；指标越低，则说明模型的幻觉分布更稳定。

LLaVA-1.5-7B基线模型的积累速率为0.35%，优秀的动态干预方法M3ID为0.40%，而PSRD仅为0.07%——大约是基线的五分之一，比M3ID低了近六倍。这意味着PSRD不仅减少了当前阶段的幻觉，更有效地切断了幻觉从一个阶段传染至下一个阶段的链条，从根源上抑制了错误的连锁放大。

七、效率权衡：在速度与精度之间取得平衡

任何实用的AI技术都需考量效率。PSRD在纠错时需要调用小裁判并可能进行多次尝试，这必然比直接生成答案更慢。团队对此进行了坦诚分析。

他们发现，通过调整接受阈值τ，可以在纠错力度与生成速度之间灵活权衡。当τ设为30%时，PSRD相比LLaVA-1.5-7B直接运行M3ID，能多减少67.2%的幻觉，但推理时间约为M3ID的4倍。当τ设置得更宽松时，系统干预频率降低，速度更快，但幻觉压制效果也相应减弱。这个参数是连续可调的，用户可根据对精度和速度的具体需求进行设置，提供了灵活性而非一刀切的方案。

团队还使用ChatGPT-4o-mini作为评判者，对比了PSRD与M3ID各自生成的500段描述的流畅度。结果显示，PSRD的描述在48.5%的情况下被认为比M3ID更流畅，M3ID在37.5%的情况下更好，另有14%被认为不相上下。这表明PSRD在有效压制幻觉的同时，并未牺牲生成语言的自然与流畅。

此外，小裁判模型在独立的幻觉分类测试上也表现稳健。在AMBER HalDet数据集上，其准确率达80.5%，F1分数88.7%，超越了OpenCLIP基线的75%准确率和84.7% F1分数；在MHal-detect数据集上，准确率72%，F1分数81.7%，同样优于对比基线。这进一步证实了小裁判所学到的判断能力是可靠且泛化的。

归根结底，PSRD研究的核心贡献在于将复杂问题拆解为两个可独立解决的子问题：先是精准定位幻觉的发生时机（每个语义阶段的开头），再以低成本工具在该时刻精准干预（利用大模型知识蒸馏训练小裁判，进行实时监控与纠正）。两者结合，产生了超越许多更复杂方法的效能。

这项研究的影响或许不会立即显现于日常生活，但它指明的方向是清晰的：让AI在描述、理解和回答关于图像的问题时，变得更加可信。无论是医生借助AI阅片，警方利用AI分析监控，还是孩子通过AI认识世界——在这些场景中，AI每减少一个“谎言”，就多增添一份可靠与安全。

对技术细节感兴趣的读者，可通过论文编号2604.17982在arXiv平台查阅完整内容，其中包含了完整的算法伪代码、详细的实验设置与丰富的消融分析。

Q&A

Q1：视觉幻觉在AI生成描述时为什么总在段落开头最严重？

根据PSRD的研究，AI在开始一个新的语义段落时，需要同时处理“开启新话题”和“回忆图片内容”双重任务。这种认知负荷使得模型更容易脱离视觉事实，转而依赖语言先验生成听起来合理但实际不存在的内容。一旦进入描述状态，语境已经建立，后续词语受前文约束更强，幻觉率便随之下降。这种“段落开头风险最高”的规律，正是PSRD选择精准干预时机的核心依据。

Q2：PSRD训练的小裁判模型能直接用在其他AI模型上吗？

可以。研究验证表明，基于LLaVA-1.5-7B训练的小裁判模型，直接应用于InstructBLIP-7B和LLaVA-Next-7B时，同样能显著降低幻觉率。这说明小裁判所学到的判断能力，捕捉的是视觉幻觉中具有普遍性的特征，而非特定模型的个体行为，因此具备良好的跨模型泛化能力。

Q3：PSRD和现有的幻觉纠正方法相比速度上差距有多大？

当接受阈值τ设为30%时，PSRD的推理时间大约是M3ID方法的4倍，但其幻觉减少量比M3ID多出67.2%。研究团队设计了可调节的阈值参数，用户可以根据对生成速度与纠错精度的不同需求进行灵活配置，从而在快速响应与高精度输出之间取得适合自己的平衡。因此，其速度并非一个固定值，而是取决于具体的应用设置。

来源:https://www.techwalker.com/2026/0430/3185640.shtml

上一篇：原点Talk对话李一淼探讨离线AI与个人智能未来

下一篇：蚂蚁集团4B参数AI助手如何匹敌百亿级大模型