大模型视觉能力比不过6岁小孩,为什么?
根据多家研究机构最新发布的BabyVision视觉推理基准测试结果,目前性能最强的多模态大模型,在视觉推理能力上依然远未达到人类儿童的认知水平。
即便是表现最佳的Gemini 3 Pro Preview,其综合得分仅勉强超过3岁儿童,与6岁儿童相比仍有约20%的明显差距,距离成年人高达94.1%的准确率更是存在巨大鸿沟。

这项研究由UniPat AI、xbench、阿里巴巴、月之暗面、阶跃星辰等多家前沿团队联合开展。数据显示,Gemini 3 Pro Preview 以49.7%的得分位居闭源模型榜首;紧随其后的是 GPT‑5.2(34.4%)与豆包 Seed‑1.8(30.2%)。
其余模型得分普遍偏低:Qwen3‑VL‑Plus 为19.2%,Grok‑4 为16.2%,Claude 4.5 Opus 仅为14.2%。在开源阵营中,Qwen3VL‑235B‑Thinking 以22.2%的成绩暂列第一,但仍未具备与主流闭源模型抗衡的实力。
研究指出,当前主流多模态大模型普遍依赖“视觉转语言”的推理模式——即先将图像编码为文本式表征,再交由语言模型完成后续逻辑推演。
这种架构在应对细粒度几何判断、空间方位关系建模、路径连续性跟踪等高度依赖非语言感知能力的任务时,存在本质性局限,致使模型在“找不同”“连线匹配”“空间构型想象”“视觉规律归纳”等典型任务中频繁失效。
BabyVision 基准将视觉推理能力划分为四大核心维度:细粒度辨别、视觉跟踪、空间感知与视觉模式识别。结果显示,所有参测模型在这四个方向均暴露出系统性短板。
例如,Gemini 3 Pro Preview 在拼图配对、轨迹连线及三维结构反推任务中多次给出错误响应;Qwen3‑VL‑Plus 同样未能通过视觉规律归纳类题目的检验。
研究团队进一步提炼出模型视觉推理所面临的四类根本性挑战:
- 非言语性细微信息难以保真,导致模型无法识别图像间细微差异;
- 流形一致性缺失,使其在复杂动态路径中难以维持稳定跟踪;
- 空间想象能力薄弱,无法从二维输入可靠构建一致的三维心理表征;
- 视觉模式抽象与归纳能力不足,难以从有限示例中提炼可泛化的结构规则。
为突破现有“语言中心化”视觉推理范式的瓶颈,研究提出了两条可行的技术演进路径:基于可验证奖励信号的强化学习(RLVR)与基于生成模型的原生视觉推理。
实验表明,Qwen3‑VL‑8B‑Thinking 经 RLVR 微调后,整体准确率提升约4.8个百分点;而在 BabyVision‑Gen 的生成式推理子集测试中,NanoBanana‑Pro 以18.3%的准确率领先于 GPT‑Image‑1.5 与 Qwen‑Image‑Edit。
研究认为,未来多模态智能的发展重心,正加速从“语言驱动型理解”转向“视觉原生型推理”。诸如 Bagel 这样的统一架构,以及具备显式物理建模能力的新一代生成模型(如 Sora 2、Veo 3),已在实践中展现出在视觉空间中执行显式推理的潜力——包括绘制中间演化步骤、标注关键语义区域、生成符合物理约束的运动轨迹等。
研究团队强调,生成过程本身,或将成为一种更高阶、更本质的推理表达形式。
论文全文:
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
最新消息称国行苹果iPhone 18 Pro Max电池容量达到了5391mAh增幅11.78%
国行iPhone18ProMax电池容量达5391mAh,较前代增幅11 78%,增量近568mAh;Pro机型仅小幅提升68mAh。爆料称最终数据待验证,若属实则续航将显著增强。
HMD发布四款诺基亚功能手机 配备AI按键与可拆卸电池
HMDGlobal推出4款诺基亚功能手机,均配1450mAh可拆卸电池及独立AI按键,支持语音控制,免费180天后付费。部分机型带摄像头,支持microSD卡扩展至32GB,具双SIM卡、3 5mm接口及蓝牙5 0。
云南以旧换新补贴扩围 新增智能影音与无人机
云南省自2026年7月起扩大消费品以旧换新补贴范围,新增智能门锁、智能影音、无人机、数码相机等数码智能产品及吸油烟机、燃气灶、洗碗机、净水器等家电。按最终售价15%补贴,每类每件最高1500元,商户报名无限制。
小米Redmi 7英寸高性能手机传闻即将发布
最近圈内又有新动静了。据博主 @数码闲聊站 今天爆料,某家厂商的子系列下一代打算推出两款屏幕尺寸差异明显的机型:一块是 6 59 英寸的中屏 Pro,另一块则是 7 英寸的巨屏性能机。从该博主以往的爆料习惯来看,基本可以锁定是小米 REDMI 品牌的产品线布局。 有意思的是,早在今年 2 月,这位博
深光影像AF35mmF2.2CE全画幅镜头E/L卡口739元起售
深光影像AF35mmF2 2CE全画幅镜头开售,提供E卡口和L卡口,标准版七百三十九元,套装版七百八十九元。全金属机身,重约一百七十五克,高三十六毫米,滤镜口径五十二毫米,光学结构五组七片,九片光圈叶片,最近对焦零点三五米,支持自动对焦。
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
1
2
3
4
5
6
7
8
9
10
相关攻略
2026-07-05 13:32
2026-07-05 13:32
2026-07-05 13:31
2026-07-05 13:31
2026-07-05 13:30
2026-07-05 13:30
2026-07-05 13:30
2026-07-05 13:30
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

