当前位置: 首页
AI
AI视觉模型与人类婴儿在找球游戏中表现差异显著

AI视觉模型与人类婴儿在找球游戏中表现差异显著

热心网友 时间:2026-05-14
转载

还记得小时候玩过的“找球游戏”吗?把一个小球扣在三个杯子中的一个下面,快速移动后让你猜球在哪里。这个对人类甚至一些动物都轻而易举的游戏,最近却让一群顶尖的AI模型栽了大跟头。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

新加坡国立大学的研究团队在2026年3月发布了一项研究,直指当前最先进视觉语言模型的一个核心软肋:它们几乎无法像人类一样,可靠地追踪移动物体的位置。论文已发布于arXiv预印本平台,编号为arXiv:2603.08436v1。

新加坡国立大学发现:AI视觉模型在玩

这个发现听起来简单,实则敲响了警钟。追踪动态物体是视觉理解的基础能力——从开车时预判车辆轨迹,到观看球赛时跟随高速飞行的球,再到监控系统中锁定目标。如果AI连这个基础关卡都过不了,那么自动驾驶、安防监控、服务机器人等依赖实时环境理解的应用,其可靠性就得打上一个大大的问号。

被“作弊通道”掩盖的真相

问题起初被掩盖了。研究团队像侦探一样,仔细审查了现有的视频理解测试集,发现许多用于评估“找球游戏”能力的视频存在设计漏洞。有些杯子是透明的,球直接可见;有些杯子颜色或花纹不同,AI能靠“记样子”而非“追轨迹”来答题;更有些视频在结尾直接露出了球。这无异于开卷考试还附赠答案,测试成绩自然光鲜。

为了戳破这层虚假繁荣,团队构建了一个全新的评测基准:VET-Bench。在这里,所有干扰项被彻底清除。杯子一模一样,球被完全遮盖,AI唯一能依靠的,就是观察杯子移动的序列,来推断球的最终位置。这就像蒙上眼睛,仅凭声音判断物体的移动路径,考验的是纯粹的动态视觉追踪能力。

顶尖模型的“集体失灵”与三种失败模式

结果令人大跌眼镜。当谷歌的Gemini-3-Pro、阿里的Qwen系列、字节跳动的Doubao等一众主流大模型站上这个纯净的考场时,表现几乎等同于随机猜测。这些耗费巨资训练、参数规模以千亿计的模型,在一个婴儿都能完成的游戏面前,集体“失明”了。

深入分析发现,模型的失败并非毫无规律,主要呈现三种典型模式:

第一种是“放弃思考型”:模型完全不分析视频内容,直接输出一个猜测,如同不看题目就填答题卡。

第二种是“粗糙描述型”:模型能识别出“这是一个杯子移动的游戏”,但无法捕捉任何精确的运动细节,好比只能说“有东西过去了”,却说不出是什么、去了哪。

第三种最为有趣,也最值得警惕,可称为“幻觉推理型”:一些高级模型会生成一段逻辑看似严谨的推理,比如“第一次交换,球从左移至中;第二次交换,球从中移至右”。然而,这套推理完全建立在错误的视觉观察之上,自信满满地描述了一场从未发生的转移。

理论瓶颈与破局之道

为什么这么难?研究团队从计算理论中找到了根源。他们证明,这类视觉追踪任务在计算复杂性上属于NC¹-完全问题。这意味着,如果限制模型只能进行固定深度的、无中间步骤的计算(这正是当前主流Transformer架构的特点),那么从理论上就无法有效解决此类问题。好比要求人不经任何演算步骤,一眼就解出复杂方程。

基于这一洞察,团队提出了一个巧妙的解决方案:“时空定位思维链”(SGCoT)。其核心思想是强迫AI像人类解题一样,先写出步骤,再给出答案。具体而言,模型在回答“球在哪个杯子”之前,必须先生成一条详细的轨迹描述,精确记录每个时间点球的坐标位置,例如“0秒时球在坐标(745,512),0.5秒时在(745,500)”。

他们选取了本就具备较强物体定位能力的Molmo2模型进行改造。通过针对性的训练策略,让模型学会了这种“先定位,后推理”的思维链。

效果是碘伏性的。采用SGCoT方法的Molmo2,在VET-Bench上的准确率飙升至90%以上,与其它模型约33%的随机猜测水平形成了天壤之别。这证明,AI并非没有潜力,关键是要用对方法,激发出其内在的时序推理能力。

启示:基础感知与高级推理不可偏废

这项研究揭示了一个深刻教训:许多看似智能、能生成流畅推理文本的模型,可能在最基础的视觉感知环节就已出错。就像一个逻辑缜密但视力模糊的人,推理步骤再漂亮,前提错了,结论必然荒谬。这提醒整个行业,在追逐更华丽的推理能力时,绝不能忽视对基础感知能力的夯实与评估。

同时,它也暴露了当前AI评测体系的一个普遍隐患:测试集中可能隐藏着各种“捷径”,让模型无需掌握核心能力就能获得高分。构建真正纯净、能反映本质能力的评测基准,已成为推动AI稳健发展的关键。

深远影响与未来方向

“找球游戏”的启示远不止于游戏本身。视觉追踪是自动驾驶(追踪行人车辆)、体育分析(追踪球员与球)、医疗影像(追踪器官运动)等无数高级应用的基石。这项研究为这些领域敲响了技术基础可靠性的警钟。

“时空定位思维链”指明了一个有希望的方向:未来的AI架构需要更好地融合逐步推理与感知。单纯堆叠参数和规模可能已触及瓶颈,而改进模型思考问题的方式——让其显式地、分步骤地处理时空信息——或许能打开新的局面。

当然,研究也有其边界。当前实验场景相对简单,现实世界充满遮挡、模糊和光影变化。测试数据多为合成,与真实场景的复杂性尚有距离。但这些局限性恰恰定义了未来的研究战场。

说到底,这项研究迫使我们去重新思考:何为真正的AI智能?一个能在复杂问答中侃侃而谈的系统,却可能败给婴儿级的视觉任务。这警示我们,人工智能的发展不能是“空中楼阁”,必须建立在扎实的、类人的基础感知与推理能力之上。通往更通用、更可靠AI的道路,或许正始于教会它们如何玩好一个简单的“找球游戏”。

Q&A

Q1:VET-Bench测试平台和普通的AI视频测试有什么不同?

VET-Bench设计为一个“无捷径”的纯净测试环境。它消除了普通测试中可能存在的视觉线索,如杯子颜色差异、透明材质或最终答案泄露。所有杯子外观一致,球被完全隐藏,迫使AI只能依靠分析物体运动轨迹这一核心能力来作答,从而真实反映其动态视觉追踪水平。

Q2:为什么最先进的AI模型在简单的找球游戏上表现这么差?

核心原因在于主流模型缺乏真正的时序建模与动态追踪能力。它们往往将视频视为一系列静态帧的集合,依赖从单帧提取的特征进行综合判断,而非像人类一样在脑海中连续更新物体的位置状态。加之模型架构在理论上对解决此类需要多步中间推理的时序问题存在局限,导致表现不佳。

Q3:时空定位思维链方法是如何让AI模型表现提升的?

该方法通过改变模型的推理过程来提升性能。它强制模型在给出最终答案前,先输出一系列明确的中间步骤——即物体在每个关键时间点的精确空间坐标。这相当于将复杂的追踪任务分解为多个可验证的定位子任务,引导模型进行更扎实的、逐步的推理。实验表明,这种方法能将模型准确率从接近随机猜测(约33%)提升至90%以上。

来源:https://www.techwalker.com/2026/0323/3182003.shtml

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
博通350亿美元私募融资 算力资本战升级

博通350亿美元私募融资 算力资本战升级

一则重磅融资消息,让全球AI算力竞赛的“资本底色”愈发清晰。据知情人士透露,两大私募资本巨头——阿波罗全球管理公司和黑石集团,正在与芯片设计巨头博通进行谈判,商讨一项规模高达约350亿美元的融资方案。 这笔资金,剑指何方?消息人士指出,博通计划将融资所得用于开发面向人工智能任务的新一代芯片。目前谈判

时间:2026-05-14 15:04
港中文AI导演系统:聊天生成多镜头电影,单GPU打造好莱坞级视频

港中文AI导演系统:聊天生成多镜头电影,单GPU打造好莱坞级视频

这项由香港中文大学多媒体实验室、快手科技以及香港创新科技研究院联合开展的研究,已于2026年3月发表在计算机视觉顶级会议上,论文编号为arXiv:2603 25746v1。对技术细节感兴趣的读者,可以据此查阅完整论文。 当前的AI视频生成技术,更像是一位只会使用固定机位的摄影师。它能产出精美的单帧画

时间:2026-05-14 15:02
上海人工智能实验室突破三维视觉技术让计算机模拟人眼感知空间

上海人工智能实验室突破三维视觉技术让计算机模拟人眼感知空间

在数字世界的浪潮中,一项来自中国顶尖科研机构的突破性技术,正在重塑机器感知三维空间的方式。由上海人工智能实验室、上海交通大学、复旦大学等联合研发的M?技术,为计算机视觉与三维重建领域开辟了全新的道路,预示着智能感知的未来已来。 试想一个基础问题:当我们用手机拍摄视频时,机器如何像人一样理解画面中的立

时间:2026-05-14 15:02
普林斯顿大学革新立体视觉技术:机器双眼识别更快速精准

普林斯顿大学革新立体视觉技术:机器双眼识别更快速精准

这项由普林斯顿大学计算机科学系团队主导的研究发表于2026年3月,论文编号为arXiv:2603 24836v1。 我们人类用双眼看世界时,大脑能轻松对比左右眼图像的细微差异,瞬间判断出物体的远近。这种立体视觉能力,让我们能精准地拿起水杯、安全地过马路,感受世界的深度。如今,让计算机也拥有这样的“双

时间:2026-05-14 15:02
麻省理工学院如何用物理模拟器提升机器学习效率

麻省理工学院如何用物理模拟器提升机器学习效率

在开始深入解读之前,我们首先需要明确一个核心前提。 您提出的要求是“根据给定的论文地址生成博客文章”,但当前提供的信息中,并未包含具体的论文链接或实质性的学术内容。您仅提供了一个指令框架和一张示意图片。 为了能够生成一篇具备深度、准确且对读者真正有帮助的专业分析文章,我的工作必须建立在可靠的学术文献

时间:2026-05-14 15:01
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程