AI看图说话是否真实在看？中科院研究揭示真相

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

科技数码

AI看图说话是否真实在看？中科院研究揭示真相

热心网友时间：2026-06-30

转载

这项研究来自中国科学院自动化研究所认知与决策智能复杂系统重点实验室和中国科学院大学人工智能学院。论文于2026年6月发表，编号为arXiv:2606.22565，系统性地评估了多模态大模型在视觉推理任务中的真实表现。

**一道让AI集体失灵的“送分题”**

先来一道简单的题目：数一数图片里有多少辆玩具车。对于人类而言，扫一眼就能轻松得出答案。然而，如果指令要求一个号称“会思考”的顶尖AI“先想想再回答”，它反而可能给出错误的结论。

这一反常现象，正是本项研究的出发点。

在人工智能领域，“链式推理”是一种备受期待的技术，其核心思想是让AI在给出最终答案前，像人类一样逐步写出中间过程，形成一条清晰的思维链条。在纯文字任务中，这种方法效果显著——让AI先列式再计算，解题准确率会大幅提升。

因此，研究者们顺理成章地思考：如果将这种“先思考再回答”的策略应用于需要同时理解图片和文字的任务，是否也能取得同样惊艳的效果？毕竟，现实世界中的AI应用——无论是阅读科学图表、解答几何问题，还是理解日常生活场景——几乎没有哪个是纯文字的，图片信息至关重要。

这项研究的价值在于，它系统性地回答了上述问题。研究团队利用14个无需特殊推理能力的通用AI模型和8个专门强化过推理能力的模型，覆盖12种不同类型的任务，进行了一次大规模的性能“体检”。体检结果揭示了一个令人深思的核心问题：这些被称为“多模态推理”的AI，在处理图片信息时，究竟是在真正地“看”，还是仅仅在自欺欺人地“说”？

一、链式推理是万能钥匙吗？不，它更像一把挑剔的钥匙

首先，需要理解“多模态”一词。“模态”指的是信息的类型，文字是一种模态，图片是另一种。能够同时处理图片和文字的AI，被称为多模态大模型。

研究团队将测试任务分为两大类：感知类任务和推理类任务。感知类任务更考验眼力，例如“找出图中穿粉色衬衫的人在哪里”、“图片里有多少个苹果”或“图中是否含有某个字”。推理类任务则更考验脑力，需要在看懂图片后进行多步逻辑计算，比如根据几何图形求角度、分析科学图表得出结论、或从多张图片中比较共同规律。

当给这些任务加上“先思考再回答”的链式推理后，结果出现了明显的分化。

对于推理类任务，链式推理表现出显著优势。数学推理平均提升了6.1个百分点，科学推理提升了2.9个百分点，涉及多张图片的综合推理提升了4.9个百分点。这很好理解：数学和科学问题本身就依赖逐步推导，要求AI明确写出推理过程，相当于强制其沿着正确的解题路径前进，就像做题必须写步骤一样，结果自然更优。

然而，当链式推理被应用于感知类任务时，情况发生了突变。视觉定位任务的平均准确率下降了4.6个百分点，知识性问答下降了3.3个百分点，数物体数量的任务更是下降了4.8个百分点。

为什么“多思考”反而会导致性能下降？一个直观的解释是：对于数数这类任务，答案直接蕴含在图片中，AI扫一眼就能正确输出。但如果强迫它先进行“深思熟虑”，它反而可能在脑海中绕了一大圈，最终自乱阵脚。就好比你本来一眼就能认出自己的手机，但如果非要你先描述每一个细节再确认，反而可能越描述越困惑。

研究还发现，链式推理对逻辑推理和算法推理任务的效果高度依赖模型自身的规模。规模较大的模型能从中受益，而规模较小的模型不仅没有提升，有时甚至表现更差。这就像不同水平的学生面对“写解题过程”的要求：学霸思路清晰，写出来有助于检验；而基础薄弱的学生，写推理过程反而暴露更多漏洞，最终失分。

二、“开了挂”的推理模型，真的就无敌了吗？

既然普通AI加上链式推理的效果好坏参半，那么专门经过训练、天生就擅长“慢慢想”的推理模型又是如何呢？

当前，训练推理模型的主流方法叫做RLVR（基于可验证奖励的强化学习）。简单来说，就是让AI反复做题，每道题做对了给奖励，做错了就扣分，通过大量试错逐渐学会正确的推理策略，从而生成更长、更复杂、且具备自我检验能力的思维链。这套方法在纯文字推理任务上效果显著，DeepSeek-R1等知名模型正是凭借此技术横空出世。

研究团队测试了五个开源的多模态推理模型，并与它们对应的普通基础版本进行了对比。结果令人失望：这些开源推理模型在各类型任务上的平均提升幅度相当有限，有些任务上甚至比普通版本表现更差。

原因何在？研究团队给出了关键解释：这些开源模型在训练时几乎清一色地使用数学题作为素材。长期下来，它们的“拿手好戏”越来越局限于数学推理，而对于其他类型的任务——如理解空间关系、分析图像模式——则关注甚少。

这就像一个学生每天只刷数学题备考，考试时却发现试卷里包含了语文、历史、地理。他的数学成绩可能很优秀，但整体成绩平平，甚至可能因为复习时间分配不均，语文反而退步了。

相比之下，谷歌旗下的商业推理模型Gemini-2.0-Flash-Thinking则展现出截然不同的面貌。它在各类推理任务上都取得了实质性提升，尤其是在算法推理任务上，进步幅度高达24.7个百分点。这表明商业公司在训练推理模型时，使用了更多样化的任务类型，并未将重心完全押注在数学上。

三、“眼睛”和“嘴巴”的背离：轻视觉，重语言

截至目前，研究已经发现链式推理并非万能，且现有开源推理模型存在明显局限。然而，这项研究最引人深思的发现，是对于“为什么”的深入剖析。

研究团队设计了一套巧妙的“探针”实验，专门用于将“视觉推理能力”和“文字推理能力”拆分开来独立检验。

以一道几何题为例：图中有两个三角形，问题是求某条边的长度。这道题可以拆分为两个子问题。一个是视觉探针：这两个三角形是什么关系（例如是否相似）？这个子问题必须看图才能回答，无法通过文字描述推导出来。另一个是文字探针：已知这两个三角形是相似三角形，设相关边长为y，请用方程求解y的值。这个子问题完全无需看图，纯粹是数学计算。

结果显示，在视觉探针上，AI的平均得分比文字探针低了足足20个百分点。这意味着，同样是解答一道图形题，“从图里提取有用信息”这一步，远比“拿着提取好的信息进行计算”要困难得多。

更重要的是，研究发现，AI在视觉探针上的得分与它在原始完整题目上的最终得分相关性更高。换句话说，能否看懂图片并从图里推理出关键信息，几乎决定了整道题能否被解出。文字计算能力固然重要，但如果视觉推理这道关卡无法通过，后续计算再厉害也无从施展。

这个发现被研究者形象地命名为“轻视觉，重语言”——对视觉信息关注不足，却在语言推理上大费周章。

为了更深入地理解这一现象，研究团队进一步分析了AI在生成完整推理过程时的两种行为：视觉反思（对图片信息产生疑问、重新审视图片）和语言反思（对自己的推理步骤产生疑问、修正逻辑）。

研究者将每个AI生成的完整推理过程按顺序平均分成十段，逐段分析其中包含的视觉反思和语言反思数量。结果呈现出非常清晰的分叉模式：语言反思随推理进程先升后降，大约在推理进行到一半时达到顶峰，就像一个思考者在分析关键节点时会停下来反问“我的逻辑有没有问题”；而视觉反思则从推理一开始就一路走低，随着推理的深入，AI对图片的关注越来越少，到了推理后期几乎完全不再“回头看图”。

这一现象背后的机制是什么？研究团队通过分析AI内部的注意力权重（即AI思考时对不同信息的“关注程度打分”）找到了答案。当AI生成越来越长的推理文字时，它对这些已生成文字的注意力越来越高，而对原始图片的关注度则越来越低，最终形成“推理文字反客为主”的局面。

一个直观的类比：想象你在按图临摹一幅画，本应一边看参考图一边画。但如果你画着画着，开始越来越专注于自己画布上的线条，反复思考“这一笔和上一笔衔接得好不好”，却越来越少抬头看参考图，那么到了后期，你画出来的东西可能已经与原图相差甚远，因为你的注意力被自己的画布而非原图占据了。

这正是AI在长篇链式推理中发生的问题：它的注意力被自己生成的推理文字所吸引，逐渐遗忘了原始图片。

四、当关键信息被遮住，AI还知道自己不知道吗？

研究团队还设计了一个颇为犀利的验证实验：故意用马赛克遮住图片中的关键信息，然后观察AI的反应。

这个实验的逻辑在于：一个真正具备“深度视觉内省”能力的AI，应该能意识到“图片里的关键信息被遮住了，我看不清，因此无法回答这个问题”，并主动拒绝给出答案。这就像一个诚实的法医检验员，如果关键证据被污染看不清楚，他会如实说明“证据不足，无法得出结论”，而不是凭空捏造一个答案。

实验结果显示，当关键信息被遮住时，AI确实产生了更多的视觉反思（表达困惑、试图重新理解图片）和语言反思（质疑自己的推理方向），说明它感知到了“有什么地方不对劲”。然而，尽管产生了这些反思，这些AI模型几乎都仍然坚持给出了某个答案，而非选择放弃作答。

换句话说，它知道自己可能看错了，但还是继续往下说，像个明明看不清路牌却坚持按猜测方向开车的司机。这说明当前AI的视觉反思是浅层的——它能察觉异常，却没有能力将这种察觉转化为实质性的行动改变。

五、路在何方：让AI真正学会“回头看图”

研究团队并不满足于揭示问题，还指出了两条颇具潜力的解决方向。

第一条路是让AI学会在推理过程中主动进行视觉回溯。研究者展示了一个OpenAI o3模型的案例：当图片中的角度标注被遮住时，o3并未将就着作答，而是在推理过程中主动放大图片的遮挡区域，仔细审视，最终判断“图片信息不足以支撑解答，拒绝作答”。这种主动“回头看图、看不清就说看不清”的能力，正是当前大多数多模态推理模型所欠缺的。

第二条路是为AI配备视觉工具箱。研究者展示了另一个案例：面对一道复杂的八皇后棋盘问题，AI首先调用图像识别工具，精确定位棋盘上每个棋子的位置，得到坐标数据后，再调用算法代码完成求解。这种“眼睛不够用就借助工具来辅助”的策略，能够从根本上弥补AI纯靠自身视觉能力的局限。

当然，研究也坦诚地指出，即使是强大如GPT-4.1这样的商业模型，在提示它使用工具辅助推理时，它也更倾向于使用数字计算器等文字类工具，而非真正的图像理解工具。这说明“视觉工具使用意识”本身也需要专门的培养。

六、研究的局限与坦诚

这项研究诚实地承认了自身的边界。由于计算资源有限，每种任务只选取了一到三个数据集，每个数据集抽取约200个样本，参与测试的AI模型共22个（14个通用模型加8个推理模型）。这个规模已覆盖了较广的范围，但不能保证涵盖所有情况的多样性。此外，研究目前聚焦于静态图片，没有涉及视频理解这一更复杂的场景，这将是未来工作的扩展方向。

归根结底，这项研究告诉我们：让AI“先想后说”并不总是好主意，关键取决于它处理的是何种类型的问题。对于需要多步推导的数学和科学问题，“慢慢想”确实有效；但对于需要直接读取图片信息的感知类任务，多余的推理步骤反而是干扰。

更深层的发现是，当前的多模态推理AI存在一个根本性的“偷懒”倾向：它们越推理，越会把注意力从原始图片上移走，转而沉浸在自己产生的文字里。外表看似思维严谨、推理周密，实际上早已与图片信息渐行渐远。这种“嘴上说得头头是道、眼睛早已不看图”的状态，正是研究者所说的“轻视觉，重语言”——这是当前多模态推理最核心的缺陷。

要真正让AI理解图片，不仅需要让它生成更多推理文字，更要让它在整个推理过程中始终保持对图片的深度关注，甚至在察觉图片信息不足时，能够诚实地说出“我看不清楚，我不确定”。对AI而言，这是比做数学题更为困难的挑战。

有兴趣深入了解这项研究的读者，可以通过arXiv编号2606.22565查阅完整论文。

Q&A

Q1：链式推理为什么在数数物体、视觉定位这类任务上反而让AI表现变差？

A：因为数物体、找位置这类感知任务的答案直接包含在图片里，AI直接看一眼就能答对。但如果强迫它先“深思熟虑”，它在推理过程中反而会把注意力从图片上移开，沉浸在自己生成的文字推理里，越想越乱，最终给出错误答案。就像你一眼就能认出自己的手机，但如果被要求先详细描述手机每个特征再确认，反而可能越描述越糊涂。

Q2：开源多模态推理模型为什么在广泛任务上的提升幅度有限？

A：主要原因是这些开源模型在训练时几乎只使用数学题作为素材，导致它们的推理能力高度集中于数学领域。对于视觉定位、图像模式识别、空间关系理解等其他类型的任务，能力提升有限，有时甚至会退步。相比之下，训练素材更多样化的商业模型（如Gemini-2.0-Flash-Thinking）则在多种推理任务上都取得了显著提升。

Q3：“轻视觉，重语言”现象在多模态推理模型中具体是怎么体现的？

A：研究者将AI的完整推理过程分成十段逐段分析，发现一个规律：AI对自身推理逻辑的反思（语言反思）会随推理进程先增后减，在中途达到顶峰；而对图片信息的重新审视（视觉反思）则从推理一开始就持续下降，到推理后期几乎完全消失。内部的注意力数据也证实了这一点：随着推理文字越来越长，AI对这些文字本身的关注度越来越高，对原始图片的关注度越来越低，形成了“推理文字反客为主”的局面。

来源:https://www.163.com/dy/article/L0KEHCVO0511DTVV.html

上一篇：四川大学等研究：AI视觉推理无需标准答案，能力持续增强

下一篇：上海硬核机器人亮相亚欧博览会覆盖田间到工厂医院