李飞飞发布空间智能基准数据集ImageNet时代来临

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

李飞飞发布空间智能基准数据集ImageNet时代来临

热心网友时间：2026-05-22

转载

继ImageNet之后，李飞飞团队再次引领AI评测新方向，聚焦于更具挑战性的具身智能领域。他们最新发布了ESI-Bench，一个专门用于评估智能体空间认知与推理能力的新基准。这标志着AI评测范式从静态感知向主动交互的重要演进。

传统的空间智能评测，往往为模型提供“上帝视角”的完美观测。而ESI-Bench的核心创新在于，它将智能体从“被动观察者”转变为“主动探索者”，真正实现了“感知-决策-行动”的闭环。这一基准为具身空间智能领域提供了首个系统性的评测框架，旨在全面覆盖人类空间认知的四大核心维度。

研究揭示了一个关键结论：当前的人工智能虽然在图像识别上表现出色，但距离具备“主动移动、交互操作、自主探索”能力的真正空间智能，仍有巨大差距。

ESI-Bench评测基准：从“被动识别”到“主动探索”的范式转变

ESI-Bench的提出，直指当前AI评测体系的一个根本性问题：它们大多测试的是“被动感知”能力。

向模型输入一两张图片，询问“A在B的左边还是右边”或“这个杯子的容量是多少”——这类任务评估的更像是模型的“视觉识别力”，而非深层的空间推理与问题解决能力。

人类是如何解决此类问题的？我们不会静止不动。我们会起身绕到物体后方观察；会伸手拉开抽屉检查内部；会通过倒水来测量容量。这种主动与环境交互、通过行动获取关键信息的能力，才是空间智能的本质。

ESI-Bench正是基于这一核心理念构建：将智能体从观察者转变为行动者。

在真实物理世界中，智能体必须像人类一样，主动规划下一步行动以收集证据，并基于新的观测进行推理和决策。研究团队将这一循环过程定义为“感知-行动回路”。

ESI-Bench是一套超越现有基准的全新评测体系。它包含10个主要任务类别、29个子类别，总计3081个任务实例，全部在OmniGibson高保真仿真平台上构建，场景素材来源于BEHAVIOR-1K大规模场景库。

所有任务均围绕发展心理学家Elizabeth Spelke提出的四大核心知识系统设计，这些被认为是人类婴儿与生俱来的空间直觉基础：物体表征、空间布局与几何关系、数量表征、目标导向的行动规划。

该基准的关键设计在于“强制行动”。每项任务中，AI智能体都必须通过主动探索和操作才能获得足够信息来回答问题。模型无法被动接收图片，它必须自主决定移动方向、观察角度、抓取对象以及操作方式。

举例来说，一道“刚性物体容纳”题目：给定几个容器和若干物体，要求将所有物体装入容器。有些容器开口狭小，有些内部设有隔板，有些则需要打开盖子才能看清真实容量。

模型必须走近容器、俯身查看、甚至拿起容器从底部观察，才能准确判断是否能够容纳。

再如“液体体积比较”任务：两个外观完全相同的杯子，无法直接判断容量差异。模型需要将水倒入杯中测试，或者拿起杯子掂量重量来推断。

从这些实例可以清晰理解ESI-Bench的设计哲学：正确答案并不存在于任何单一静态视角中，智能体必须通过主动交互、多角度观察和逻辑推理，才能逐步揭示事实全貌。

研究团队特别强调，与以往工作相比，ESI-Bench在三个维度实现了显著突破：

从空间感知到空间能力：评测重点不再是智能体“看到了什么”，而是它“知道如何运用何种能力”来解决复杂的空间任务。
选择性感知与信息获取：智能体必须学会判断哪些观察是关键的，优先收集与任务目标高度相关的信息，过滤冗余或无用的感官输入。
解决感知歧义与推理隐藏属性：智能体必须能够处理具有误导性的表面观察，推理出隐藏的空间结构、物理约束和物体潜在属性。

基准实测结果：揭示三大核心发现

研究团队利用当前最先进的多模态大模型进行了全面测试，包括GPT-5和Gemini系列模型。

上图为核心实验结果，对比了在被动感知、主动探索以及“上帝视角”三种不同范式下，各类模型在ESI-Bench各项任务上的准确率表现，涵盖了2D视觉语言模型、3D大语言模型以及人类表现基线。

深入分析后，团队总结出以下三个核心发现。

发现一：主要瓶颈在于“行动策略”，而非“视觉感知”

首先是一个积极信号：主动探索策略本身是有效的。在没有明确指令的情况下，智能体自发涌现出多种空间探索行为，例如绕到物体背后观察、切换俯视与平视角度、拿起物体检查、倒出液体验证等。

一个典型例证是，在“部分遮挡”任务中，如果直接为Gemini 3.1提供最佳观测视角，其准确率能从14.6%大幅提升至95.1%。这表明，模型本身的视觉感知能力并不弱，只要获得合适的视角，它就能正确理解场景。

但关键问题在于，模型自身缺乏能力去主动寻找那个正确的视角。

更令人意外的是，被动的“多视角输入”策略不仅无益，反而可能有害。实验显示，让GPT-5观看多张随机角度的图片，其在空间距离估算任务上的准确率反而从53.9%下降至49.1%。视图增多，性能却下降了。

GPT-5和Gemini 3.1在主动探索中达到正确答案所需的平均步数对比

团队将这种现象命名为“动作盲视”：一个糟糕的行动选择导致一个无效的观测视角，而这个无效视角又会引发更差的后续决策，最终形成难以挽回的级联失败。在“结构围合”任务上，主动探索策略的表现与“上帝视角”下的表现差距高达49.7%。

这意味着，当前空间智能发展的主要障碍，可能并非视觉模型不够强大，而在于行动规划与探索策略几乎处于空白状态。

发现二：不完美的3D重建，效果可能逊于2D图像

既然2D被动看图存在局限，那么引入3D信息呢？这也是当前许多具身智能研究团队的思路：先进行三维场景重建，再在重建的3D场景图上进行推理。

测试发现，如果提供的是“真值3D”（即几何完美的上帝视角3D模型），性能确实强劲。例如在“材质透明度”任务上，Gemini的2D版本得分为44.0%，而3D版本达到60.4%，提升了16.4个百分点。在需要精确深度信息的任务上，3D表征具有天然优势。

但如果使用的是现有技术“实时重建”出来的不完美3D场景呢？团队采用了先进的VGGT模型进行场景重建，再将重建结果输入给推理模型。

结果令人惊讶：在“几何配置”任务上，2D基线得分尚有27.5%，而使用VGGT重建后的3D场景图进行推理，得分骤降至9.9%。

这表明，质量不佳的3D重建并非中性的失败，而是会产生负面影响的“噪声源”。几何伪影、遮挡补全错误、深度估计偏差……将这些失真信息编码成场景图，相当于为推理模型提供了带有误导性的输入。相比之下，2D图像虽然信息维度较低，但至少保真度较高；而质量不过关的3D重建，其效果可能还不如朴素的2D图像输入。

发现三：元认知缺陷——模型缺乏对自身认知状态的评估能力

论文中还有一组对比实验，深入揭示了智能体与人类在空间推理能力上的本质差异。

结果发现，尽管存在感知差距，但这种差距可能比普遍认为的要小。在部分任务类别中，模型的被动感知表现甚至能与人类持平或略胜一筹。例如，在“真实轨迹”（即提供人类探索路径上的观测）条件下，Gemini在部分遮挡任务上达到88.4%的准确率，人类为87.4%；GPT-5在材质透明度任务上达到96.3%，人类则为97.2%。

然而，一旦切换到需要完全自主探索的场景，差距便急剧扩大。人类凭借明确的观察目标、高效的探索策略和适时的停止机制，表现远超模型，且其主动探索的表现更接近“真实轨迹”下的被动表现。例如在“物理接触”判断任务中，人类准确率为88.3%，而GPT-5仅为64.2%；在“材质透明度”任务中，人类准确率为93.6%，Gemini 3.1则为52.3%。

通过分析探索轨迹，团队发现人类表现出更强的“认知谨慎性”：在做出最终判断前会收集更多观测证据，主动寻找可能证伪当前假设的视角，并在证据模糊时降低判断置信度。

而模型则倾向于过早停止探索。即使证据尚不充分或存在矛盾，模型也常在少数几步探索后便以高置信度做出判断，从而产生与真实场景状态不符的“空间幻觉”。