中科院软件所解析AI多模态大模型为何更擅长图像处理

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

中科院软件所解析AI多模态大模型为何更擅长图像处理

热心网友时间：2026-05-15

转载

这项由中国科学院大学与中国科学院软件研究所中文信息处理实验室联合开展的研究，以预印本形式发布于2026年4月，论文编号为arXiv:2604.16902。

中科院软件所揭秘：为什么AI多模态大模型总是

想象一下，当你同时听到一种声音、看到一张图片、读到一段文字，而这三者讲述的却是完全不同的故事时，你会相信哪一个？这听起来像是一个哲学思辨，但实际上，它正是当前人工智能研发中一个真实存在却又常被忽视的技术难题。最近的一项研究，正是为了解开这个谜题。

这一切要从人工智能的一次关键进化说起。过去几年，AI从只能处理图文信息的“视觉语言模型”，迈入了能够同时理解图像、音频、文本乃至视频的“全模态大语言模型”时代。你可以把它们理解为拥有了“全能感知”的超级助手，将多种感官信息整合进同一个“大脑”里。

然而，这种整合带来了一个意想不到的副作用。当这个助手同时接收到来自不同感官的、相互矛盾的信号时，它会如何抉择？研究发现，这些AI并非公平的裁判，它们存在明显的“偏心”——会下意识地更信任某一种输入，而忽略其他。研究者将这种现象称为“模态偏好”。

此前，业内普遍存在一种“文字主导偏见”的认知，认为AI会更倾向于相信文本信息。但这项研究在对十个主流全模态模型进行系统性测试后，得出了一个碘伏性的结论：大多数AI，其实更偏爱图像。这个发现引出了三个核心问题：这种偏心的普遍性和程度究竟如何？它究竟是如何在AI内部形成的？而理解它，能否帮助我们解决AI时常“胡说八道”的老毛病？

一、给AI出一道“三选一”的难题

要探究AI的偏好，首先得设计一个能让它“原形毕露”的测试环境。研究团队的思路非常巧妙：既然在信息一致时看不出端倪，那就故意让信息“打架”。

他们构建了一个专门的测试数据集。每个样本都像一组矛盾的证据：一段文字描述、一张图片、一段音频，三者内容在语义上完全冲突。例如，文字说“瀑布流淌”，图片展示“拉大提琴”，音频播放“布谷鸟叫”。然后询问AI：“这个样本主要关于什么？”选项分别对应三种模态的内容。AI的选择，直接揭示了它更采信谁的“证词”。

为确保测试严谨，样本涵盖了动物、人类活动、乐器、自然声音等六大类别，且确保三个模态的内容来自不同类别，杜绝语义关联。最终，一个包含1000个此类冲突样本的数据集准备就绪。

核心度量指标是“模态选择率”。简单说，就是AI选择某种模态答案的比例。在理想的三选一随机情况下，每种模态的选择率应约为33%。若某一模态的选择率显著高于此阈值，则表明存在偏好。

结果出人意料。在测试的十个模型中，有八个的图像选择率超过了50%。其中，Gemini 3 Flash对图像的偏爱最为突出，选择率高达82%，而文字仅占8%。即便是性能顶尖的Gemini 3.1 Pro，图像选择率也达到72%，文字仅为7%。只有两个模型表现出轻微的文字偏好。

在进一步的“二选一”对比测试中，偏好等级更加清晰：在所有“图像 vs. 文字”的比拼中，图像胜出；在所有“图像 vs. 音频”的比拼中，图像胜出；而在“文字 vs. 音频”的比拼中，文字胜出。这意味着，这些全模态AI的“信任度排行榜”是：图像第一，文字第二，音频则远远垫底。

音频被忽视的程度令人惊讶。在三模态冲突测试中，所有模型的音频选择率均低于21%，多数甚至不足10%。这暴露出一个残酷的现实：尽管这些模型宣称具备多模态理解能力，但它们对声音信息几乎是“充耳不闻”。

二、AI大脑里的“偏心”是怎么长出来的

发现了偏好，下一个问题自然是：这种偏心从何而来？它是在AI神经网络（即模型的“大脑”）的哪一层、以何种方式形成的？

研究团队采用了一种名为“线性探针”的技术来一探究竟。你可以把它想象成在神经网络每一层的出口安装一个微型“监测器”。这个监测器通过分析该层处理后的信息，来预测模型最终会偏向哪种模态。监测器的预测准确率越高，说明该层的信息中已经包含了越清晰的偏好信号。

通过追踪探针准确率随网络层数的变化，一幅清晰的“偏好形成图谱”浮现出来。在网络的前30%左右，准确率在随机水平附近徘徊，表明浅层网络主要处理低级特征，尚未形成判断。

然而，在网络的40%到70%深度区间，戏剧性的一幕发生了：所有模型的探针准确率都经历了急剧飙升。例如，Qwen2.5-Omni-7B的准确率从约0.50猛增至约0.90。这明确显示，模态偏好正是在网络的中后段集中涌现的。

有趣的是，在最后的20%网络层中，准确率又出现了不同程度的下滑。研究团队认为，这是因为最后几层负责将信息整合并准备输出，这个过程会一定程度上“稀释”之前形成的强烈偏好信号。

基于此，研究者将偏好演化划分为四个阶段：浅层的“缺席期”、中段的“涌现期”、随后的“峰值期”以及末端的“消退期”。此外，对比不同规模的模型还发现，参数更大的模型，其偏好形成得更早，且在消退期信号衰减更缓，显示出更稳定和成熟的内部表征。

为了更直观地展示这一过程，研究团队对Qwen2.5-Omni-7B模型进行了可视化分析。他们将不同网络层的信息投影到二维平面上，结果一目了然：在第5层，三种模态的数据点完全混杂；到第18层，开始出现分离趋势；至第24层（峰值期附近），已形成三个边界清晰的簇；而到了第28层（消退期），簇的边界又重新变得模糊。这为“偏好在中后层形成”提供了强有力的视觉证据。

三、偏心的AI更容易“胡说八道”，而且可以提前预警

弄清了偏好的形成机制，一个更实际的问题随之而来：这种偏心是否会导致AI犯错？更重要的是，能否利用它来预测AI何时会犯错？

AI的“胡说八道”在学术上被称为“幻觉”。在多模态场景下，“跨模态幻觉”尤为棘手：AI可能因为过度偏爱某一模态，而忽视另一模态的真实信息，从而做出错误判断。

研究团队提出了一个核心假设：当AI即将产生幻觉时，其内部对于“干扰模态”（即本不该采信的信息）的偏好概率会异常升高。也就是说，如果监测器发现AI正在不正常地“偏心”于某个干扰信息，就可以预警它可能即将出错。

为了验证这一假设，研究团队在多个权威的跨模态幻觉基准上进行了测试。结果有力地支持了该假设。以Qwen2.5-Omni-7B为例，分析发现，在AI回答错误的样本（即产生幻觉）中，干扰模态的预测概率分布明显偏向高值区间；而在回答正确的样本中，该概率则集中在较低区间。统计检验表明，这种差异极其显著，绝非偶然。

基于此，研究团队将探针发展成了一种幻觉自动检测工具。具体做法是，将探针对干扰模态的预测概率作为“风险分数”，分数越高，AI产生幻觉的可能性越大。

为了评估其效果，他们与两种基线方法进行了对比：一是随机猜测，二是使用网络第一层的探针（代表偏好信号出现前的状态）。评估指标包括AUROC（综合区分能力，1.0为满分，0.5为随机水平）等。

结果显示，第一层探针的表现与随机猜测无异，证实了有效信号确实源于网络中后层。而使用偏好形成峰值层的探针，则取得了卓越的检测性能。例如，在POPE基准测试中，多个模型的平均AUROC达到了0.94，其中MiniCPM-o-2.6更是高达0.99，显著优于基线方法。

几个具体案例生动地说明了其工作原理：当AI正确判断“图中没有勺子”时，视觉（目标模态）的概率高达0.81，文字（干扰模态）概率仅为0.17；而当AI错误回答“有”（产生幻觉）时，视觉概率骤降至0.21，文字干扰概率则飙升至0.76。这种内部概率的剧烈变化，为幻觉预警提供了清晰的信号。