当前位置: 首页
AI
BabyVision评测评测:三岁幼儿使用多模态大模型实操指南

BabyVision评测评测:三岁幼儿使用多模态大模型实操指南

热心网友 时间:2026-01-12
转载

1月12日,红杉中国旗下测评体系xBench与UniPat AI团队联合发布了全新的多模态理解测评集BabyVision。这一测评集旨在系统评估大模型在不依赖语言提示下的纯粹视觉基础能力。测试结果显示,当前主流多模态大模型在该测评中的整体表现,普遍落后于三岁幼儿的水平。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

该测评集将视觉能力划分为精细辨别、视觉追踪、空间感知和视觉模式识别四大类别,共涵盖22项子任务、388道题目。测评严格控制了语言依赖,确保题目信息无法被完全“文本化”,从而真实考察模型对视觉内容的理解能力。

最终测评结果显示,在BabyVision-Full测评集上,研究团队引入了人类基线作为参照:由至少16位具备本科背景的测试者完成了全部388道题目,人类平均准确率达到94.1%。

再看各大模型的表现:表现最佳的开源模型Gemini 3 Pro Preview准确率为49.7%,GPT-5.2为34.8%,国内模型Doubao-1.8为30.2%,开源模型Qwen3VL-235B-Thinking则为22.2%。多数模型的得分明显低于三岁儿童的平均水平。

多模态大模型输给三岁宝宝?新测评集BabyVision发布

研究团队指出,许多视觉信息本质上是“不可言说”的,一旦被压缩为语言描述就会丢失关键细节,导致模型在需要连续追踪、空间想象、几何归纳等任务中表现显著落后。为此,团队同步推出了生成式测评版本BabyVision-Gen,要求模型以绘图、标注等视觉方式作答。现阶段得出的结论是:

生成式推理在视觉追踪、精细辨别等多模态模型容易出错的任务上,展现出了更接近人类的行为模式,但整体仍然缺乏稳定达到完全正确解的能力。

BabyVision的发布,为多模态大模型与具身智能的发展提供了可量化、可诊断的评估工具,显示出当前视觉基础能力仍是AI迈向通用智能的关键短板。

来源:https://tech.ifeng.com/c/8pqhUP9WUa5

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
工信部发布防范 OpenClaw(“龙虾”)开源智能体安全风险“六要六不要”建议

工信部发布防范 OpenClaw(“龙虾”)开源智能体安全风险“六要六不要”建议

工信部发布“六要六不要”,为OpenClaw(“龙虾”)开源智能体安全风险划出红线 近日,工业和信息化部网络安全威胁和漏洞信息共享平台发布了一份重磅文件,针对当前热门的OpenClaw(因其图标酷似龙虾,业内常昵称为“龙虾”)开源智能体,提出了清晰的安全使用指引——“六要六不要”。这份建议可不是空穴

时间:2026-04-02 11:16
荣耀 CEO 李健:荣耀机器人全栈自研,将聚焦消费市场

荣耀 CEO 李健:荣耀机器人全栈自研,将聚焦消费市场

荣耀CEO李健详解机器人战略:全栈自研,聚焦三大核心消费场景 荣耀春季旗舰新品发布会圆满结束后,关于公司未来发展的蓝图更加清晰。在随后的媒体沟通会上,荣耀CEO李健不仅公布了年度销售目标,更首次系统性地阐述了荣耀在机器人领域的完整战略规划与市场布局。 在探讨机器人业务发展方向时,李健明确了荣耀的坚定

时间:2026-04-02 11:14
别只盯着“上门装龙虾赚26万”!看懂OpenClaw背后的“意图入口”大战

别只盯着“上门装龙虾赚26万”!看懂OpenClaw背后的“意图入口”大战

别再只关注“上门装龙虾赚26万”!深度解读OpenClaw背后的“意图入口”新战争 最近科技行业的热潮,充满了戏剧性的现实色彩。一只“红色龙虾”AI智能体搅动了整个市场:有人通过提供安装服务,收取每次五百元,短短几天就赚取二十六万元收入;腾讯大厦前甚至排起长队,大家竞相领取免费的安装体验权限。这场全

时间:2026-04-02 11:00
openclaw安装配置

openclaw安装配置

一、系统要求 在开始安装 OpenClaw 之前,请务必确认您的计算机满足以下最低配置要求。这如同搭建房屋前检查地基,是确保后续安装流程顺利、软件稳定运行的前提。更高的硬件配置将为复杂任务处理和流畅体验提供有力保障。 操作系统:支持 Windows 10 及以上版本、macOS 最新稳定版,以及主流

时间:2026-04-02 10:53
自研第一个SKILL-openclaw入门

自研第一个SKILL-openclaw入门

自研第一个SKILL:手把手教你开发openclaw自定义技能 当你成功构建好openclaw之后,如何让它真正“智能”起来?关键在于为其开发SKILL——这些技能是openclaw的“内功心法”,决定了它能帮你做什么、做多好。 本文将带你亲自动手,从零开始开发你的第一个openclaw自定义技能,

时间:2026-04-02 10:40
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程