当前位置: 首页
科技数码
大模型视觉能力比不过6岁小孩,为什么?

大模型视觉能力比不过6岁小孩,为什么?

热心网友 时间:2026-01-26
转载

根据多家研究机构最新发布的BabyVision视觉推理基准测试结果,目前性能最强的多模态大模型,在视觉推理能力上依然远未达到人类儿童的认知水平。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

即便是表现最佳的Gemini 3 Pro Preview,其综合得分仅勉强超过3岁儿童,与6岁儿童相比仍有约20%的明显差距,距离成年人高达94.1%的准确率更是存在巨大鸿沟。

最强大模型的视觉能力不如 6 岁小孩

这项研究由UniPat AI、xbench、阿里巴巴、月之暗面、阶跃星辰等多家前沿团队联合开展。数据显示,Gemini 3 Pro Preview 以49.7%的得分位居闭源模型榜首;紧随其后的是 GPT‑5.2(34.4%)与豆包 Seed‑1.8(30.2%)。

其余模型得分普遍偏低:Qwen3‑VL‑Plus 为19.2%,Grok‑4 为16.2%,Claude 4.5 Opus 仅为14.2%。在开源阵营中,Qwen3VL‑235B‑Thinking 以22.2%的成绩暂列第一,但仍未具备与主流闭源模型抗衡的实力。

研究指出,当前主流多模态大模型普遍依赖“视觉转语言”的推理模式——即先将图像编码为文本式表征,再交由语言模型完成后续逻辑推演。

这种架构在应对细粒度几何判断、空间方位关系建模、路径连续性跟踪等高度依赖非语言感知能力的任务时,存在本质性局限,致使模型在“找不同”“连线匹配”“空间构型想象”“视觉规律归纳”等典型任务中频繁失效。

BabyVision 基准将视觉推理能力划分为四大核心维度:细粒度辨别、视觉跟踪、空间感知与视觉模式识别。结果显示,所有参测模型在这四个方向均暴露出系统性短板。

例如,Gemini 3 Pro Preview 在拼图配对、轨迹连线及三维结构反推任务中多次给出错误响应;Qwen3‑VL‑Plus 同样未能通过视觉规律归纳类题目的检验。

研究团队进一步提炼出模型视觉推理所面临的四类根本性挑战:

  1. 非言语性细微信息难以保真,导致模型无法识别图像间细微差异;
  2. 流形一致性缺失,使其在复杂动态路径中难以维持稳定跟踪;
  3. 空间想象能力薄弱,无法从二维输入可靠构建一致的三维心理表征;
  4. 视觉模式抽象与归纳能力不足,难以从有限示例中提炼可泛化的结构规则。

为突破现有“语言中心化”视觉推理范式的瓶颈,研究提出了两条可行的技术演进路径:基于可验证奖励信号的强化学习(RLVR)与基于生成模型的原生视觉推理。

实验表明,Qwen3‑VL‑8B‑Thinking 经 RLVR 微调后,整体准确率提升约4.8个百分点;而在 BabyVision‑Gen 的生成式推理子集测试中,NanoBanana‑Pro 以18.3%的准确率领先于 GPT‑Image‑1.5 与 Qwen‑Image‑Edit。

研究认为,未来多模态智能的发展重心,正加速从“语言驱动型理解”转向“视觉原生型推理”。诸如 Bagel 这样的统一架构,以及具备显式物理建模能力的新一代生成模型(如 Sora 2、Veo 3),已在实践中展现出在视觉空间中执行显式推理的潜力——包括绘制中间演化步骤、标注关键语义区域、生成符合物理约束的运动轨迹等。

研究团队强调,生成过程本身,或将成为一种更高阶、更本质的推理表达形式。

论文全文:

来源:https://www.php.cn/faq/2034484.html?uid=1246273

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
AWE 2026新奇特新品抢先看 特斯拉影石都来了

AWE 2026新奇特新品抢先看 特斯拉影石都来了

据AWE 2026官方透露,本次展会中汇聚了一大批极具“新、奇、特”属性的创新消费电子产品。在展会开幕前,AWE官方已经在官网中提前剧透了几款即将展出的潮酷黑科技装备。 AWE 2026的帷幕,将于3月12日至15日在上海新国际博览中心拉开。官方的预热信息已经吊足了胃口:一大批贴着“新、奇、特”标签

时间:2026-04-05 22:45
涨价前再促一次:TCL M7 新风空调双排铜管 10 年整机包修,1.5 匹 1979 元

涨价前再促一次:TCL M7 新风空调双排铜管 10 年整机包修,1.5 匹 1979 元

小蓝翼 M7 TCL刚刚在2026年更新的新风空调产品线中,小蓝翼M7系列无疑是今年春季促销的焦点。这款新品在核心配置上直接拉满:双排铜管冷凝器、直流变频技术,外加电子膨胀阀,用料相当扎实。最值得关注的,是其1 5匹机型的APF能效比达到了5 40,这比市面上同类竞品普遍徘徊在5 2左右的水平,高出

时间:2026-04-05 22:12
机械革命耀世16 Ultra新款现可预约,水冷双烤达300W

机械革命耀世16 Ultra新款现可预约,水冷双烤达300W

机械革命2026旗舰新品耀世16 Ultra发布:水冷双烤功耗达300W,性能释放再创新高 2026年4月3日,机械革命正式推出其新一代旗舰级游戏笔记本电脑——耀世16 Ultra 2026款。这款产品凭借水冷散热系统实现了双烤高达300W的性能释放,结合顶级OLED屏幕与NVIDIA全新RTX 5

时间:2026-04-05 21:47
OPPO K15 Pro系列发布 主动散热颜值性能两不误

OPPO K15 Pro系列发布 主动散热颜值性能两不误

OPPO K15 Pro系列正式发布:性能与颜值的全新选择 近期,智能手机市场再次迎来一位重量级成员。OPPO正式推出了备受期待的K15 Pro和K15 Pro+两款机型,两款新机同样瞄准年轻消费群体,主打高性能与潮流设计。全系标配主动式风扇散热系统,外观延续标志性潮流平整风格,定位明确,旨在为广大

时间:2026-04-05 21:35
AWE探展TCL:“机皇”X11L惊艳亮相 20000+个万象分区

AWE探展TCL:“机皇”X11L惊艳亮相 20000+个万象分区

TCL在AWE现场打造了一座“TCL PASSION LAND”品牌活力乐园,开启了“屏宇宙+AI科技”新次元。非常吸引人的便是TCL的“屏宇宙”了。 【上海现场直击】2026年AWE大幕拉开,这场主题为“AI科技、慧享未来”的家电与消费电子盛宴,于3月12日至15日,首次以“一展双区”的新模式在上

时间:2026-04-05 21:22
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程