新加坡科技设计大学联合多校研究AI观察学习物理交互能力

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

新加坡科技设计大学联合多校研究AI观察学习物理交互能力

热心网友时间：2026-05-13

转载

这项由新加坡科技设计大学、新加坡管理大学、中国科学技术大学和南洋理工大学联合开展的突破性研究，已于2026年2月在预印本平台arXiv上发表，论文编号为2602.21015v1。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

新加坡科技设计大学带队多校合作：AI能否像人类一样通过观察学会与物理世界交互

面对一个复杂的机械锁，或是需要将各种形状的积木精准装入盒中时，人类大脑能凭借物理直觉，轻松分析物体间的空间关系，并预判哪些操作可行、哪些会失败。然而，这种看似基础的物理常识与交互能力，对当前最前沿的人工智能系统而言，却构成了一个巨大的挑战。研究发现，尽管AI在图像识别乃至基于图像的复杂问答上表现出色，但一旦要求它们在物理世界中进行多步骤的动手操作，其表现往往不尽如人意。

问题的核心在于评估范式。主流方法更像是让AI进行“看图说话”——仅基于静态图片回答问题，而非在动态环境中动手实践。这种方式无法有效检验AI是否真正理解了物体间那些隐性的物理约束关系，例如哪个部件必须优先移动，哪个方向的移动路径才是物理上允许的。

为了填补这一关键空白，研究团队构建了一个全新的基准测试平台：CHAIN（动作与交互因果层次）。它如同一个为AI量身定制的“虚拟物理实验室”，其中包含了多种需要精确操作的3D拼图与空间装箱任务。与静态问答不同，CHAIN要求AI必须在模拟的物理环境中主动交互，通过尝试、观察反馈并动态调整策略来解决问题。

从被动观察到主动操作的范式革新

传统的AI评估，好比仅凭菜谱图片来评判厨艺，却不允许实际下厨。主流的“视觉问答”任务正是如此：AI观察一张图片，然后回答一个问题。它或许能准确描述“红色积木位于蓝色积木左侧”，但这与真正理解并操控物理世界，存在着“纸上谈兵”与“实战演练”的本质区别。

研究团队认识到，真实世界的问题解决依赖于“闭环”思维。就像破解魔方，每一步操作都会改变整体格局，你必须根据新的状态规划下一步。这种能力包含三个紧密耦合的要素：理解当前状态下哪些动作在物理上可行；预测这些动作将引发何种后果；根据结果动态调整整体行动计划。

CHAIN平台的核心创新，在于它不再满足于AI的“一次性输出”，而是要求其在一个完整任务中执行多达数十次的决策循环。每一次操作后，环境都会依据物理法则产生真实变化，AI必须重新感知、重新推理、重新决策。这种设计精准模拟了人类解决实际物理问题的真实过程，也无情地揭示了现有AI在处理动态、交互式任务时的能力边界。

更重要的是，CHAIN中的所有任务都植根于严格的物理仿真约束。如同现实世界，物体不能互相穿透，也不能违反重力悬浮。这些约束并非人为添加的规则，而是源自物理引擎的真实模拟。这意味着AI无法通过记忆标准答案来“作弊”，它必须真正习得物理世界的运作规律。

精心设计的物理推理挑战集

CHAIN平台包含两大类精心设计的任务，每一类都直指当前AI物理推理的不同短板。

第一类是传统木制拼图的3D升级版，其灵感来源于中国古代的鲁班锁与孔明锁。这些看似简单的结构，实则蕴含着极其复杂的几何约束与操作序列。以经典的六根木条鲁班锁为例，其拆解过程绝非暴力拉扯所能完成。每根木条都与其他木条精密咬合，必须遵循特定的解锁顺序。有时，你需要先将A木条向左滑动两厘米，才能释放B木条，而B木条的移动又会为C木条的取出创造条件。整个过程如同一场编排精密的舞蹈，每一步都必须精确无误。

研究团队根据复杂度设计了三个难度级别。简单级别包含六个零件的基础拼图；中等难度涉及十几个零件的复合结构；困难级别则包含超过三十个零件的高度复杂设计。难度提升不仅在于零件数量，更在于约束关系的交织程度。在困难任务中，单个零件的移动可能同时影响多个其他零件的可动性，形成复杂的连锁反应。

第二类任务专注于3D空间装箱问题。这听起来简单，实则是几何学、空间推理与长期规划的综合考验。AI需要将各种形状的3D积木装进一个固定容器，要求完全填满且无任何重叠。其核心难点在于，早期的放置决策会严重制约后续的选择空间。例如，如果先将一个大型L形积木放在容器中央，剩余空间就被分割成数个不规则区域，极大限制了后续积木的放置可能性。

装箱任务同样分为三个难度等级，主要通过容器尺寸、积木数量和形状复杂度来区分。简单级别可能是一个2×2×3的小盒子搭配几个基础形状，而困难级别则可能是3×3×4的大容器配上各种异形积木。更具挑战性的是，所有任务均由程序自动生成，这意味着可以产生近乎无限的任务变体，确保AI无法通过记忆特定解法来过关。

构建可控且公平的基准测试环境

为确保评估结果的可靠性与可复现性，研究团队开发了一套严格的任务构建流程，如同电影制作中的质量控制，每个候选任务都必须通过多重筛选。

首先是任务筛选。团队从专业拼图网站收集候选设计，但并非所有都适用。他们设定了三个关键标准：一是因果依赖性，只保留必须按特定顺序操作的拼图；二是可行性，确保拼图既不会过于简单，也不会难到无法在计算机中稳定模拟；三是人类难度验证，邀请拼图专家实际操作，根据完成时间（5分钟内为简单，5-15分钟为中等，15分钟以上为困难）进行分类。

接着是环境标准化。收集来的原始设计千差万别，团队需要将它们统一转换为可控的数字化环境。对于复杂的机械拼图，他们使用Unity游戏引擎来高保真地模拟物理约束和接触关系；对于相对简单的装箱任务，则使用轻量级的Python 3D引擎以提高运行效率。所有任务都采用统一的交互界面：每个物体都有独特的颜色标识，AI通过指定颜色来选择和操作物体。

最后是评估协议设计，这是整个系统的核心创新。与传统的单次问答不同，CHAIN采用完全的闭环交互评估。在每个评估回合中，AI接收当前的视觉画面、任务描述和简化的操作历史，然后选择一个具体动作。系统执行该动作并更新环境状态，再将新的观察反馈给AI。此循环持续进行，直至AI成功完成任务或达到预设的最大步数限制。

为保证公平性，所有参与测试的AI模型都在完全一致的条件下运行：相同的视觉视角、相同的动作选择范围、相同的步数预算。每个任务都有客观的成功标准：拼图任务要求最终状态与目标配置完全匹配，装箱任务则要求容器被完全填满且无任何重叠。

多维度评估指标的全面考量

CHAIN平台不仅关心AI“能否”完成任务，更深入探究它“如何”完成。研究团队设计了一套多维度的评估体系，如同评价厨师，不仅要看菜品最终是否美味，还要考量烹饪效率、食材利用率和成本控制。

最直观的指标是任务成功率（Pass@1），即AI单次尝试即成功的比例，直接反映了其基础能力。但这仅是起点。

规划效率指标专门分析那些成功完成的任务。平均步数记录了AI完成任务所需的操作次数，而最优距离则计算其实际解法与理论最优解之间的步数差距。例如，某个拼图的最优解法需8步，若AI用了12步，那么多出的4步即为冗余操作。标准化距离进一步将此差距按任务难度进行归一化处理，使得不同复杂度的任务结果可以公平比较。

成本效率指标则从实际应用角度考量经济可行性。团队详细统计了AI解决每个任务所消耗的计算tokens总量，包括输入处理、模型推理和输出的总和。通过换算成实际的API调用成本，得出了“每成功解决一个任务需多少美元”的具体数据。这一指标对于评估AI技术的商业应用潜力至关重要。

一个有趣的发现是，这三类指标之间并非总是正相关。某些AI模型成功率较高，但倾向于采用大量试错和回溯策略，导致步数冗余和成本上升；而另一些模型成功率中等，可一旦成功就非常高效。这种差异反映了不同AI系统在探索策略与确定性推理之间的不同权衡。

当前顶尖AI系统的真实表现

研究团队对包括GPT-5.2、Claude Opus 4.5、Gemini 3 Pro在内的16个最先进的AI模型进行了全面测试。结果既有亮点，也暴露了显著的局限性。

整体上，闭源的商业模型普遍优于开源模型。GPT-5.2取得了最佳综合成绩，整体成功率达22.9%（成功任务数25个）。在开源模型中，Kimi-k2.5表现最好，成功率为13.8%。但即便是最优秀的模型，其表现距离人类专家水平仍有巨大差距。

更值得深思的是两类任务间的表现鸿沟。在3D装箱任务上，顶级AI模型能达到10.4%到31.2%的成功率，显示出一定的空间几何推理能力。但在拼图任务上，绝大多数模型的成功率仅在0.0%到3.1%之间，表现可谓惨淡。这揭示了AI在处理不同类型物理约束时能力的巨大差异。

通过深入分析失败案例，研究团队发现了AI的几个根本性问题。在拼图任务中，AI最大的困难在于无法有效识别和利用隐藏的几何约束。即使提供了部分内部结构信息，AI仍难以可靠地找到解锁的第一步关键操作，往往陷入盲目的试错循环，缺乏基于约束的系统性推理能力。

在装箱任务中，AI面临两大核心挑战。一是对象集合的复杂性与耦合关系。简单任务可通过局部合理的放置策略解决，但中高难度任务需要全局优化的紧密装箱决策，这超出了大多数AI的长期规划能力。二是全局空间规划能力不足。多数AI采用贪婪策略，优先放置“容易处理”的物品，但这常常导致后期剩余空间高度碎片化，迫使它们进行代价高昂的移除和重新规划操作。

成本分析揭示了另一个关键问题：表现更好的模型往往需要消耗更多的计算资源。GPT-5.2虽然成功率最高，但每解决一个任务的成本高达1.3美元。相比之下，一些轻量级模型成功率较低，但成本效率更高。这种权衡关系在大规模实际部署场景中尤为重要。

交互式评估与传统静态方法的对比

为验证交互式评估的必要性，团队设计了对照实验，比较AI在交互式环境与传统单次回答模式下的表现差异。结果显示，交互能力对于物理推理任务的重要性远超预期。

在单次回答模式下，AI只能看到任务初始状态的单张图片，然后必须直接输出一个完整的解决方案，不允许中途调整。结果，所有被测试AI在拼图任务上的成功率均降至0.0%，装箱任务的成功率也大幅下降。例如，GPT-5.2的成功率从交互式的31.2%骤降至9.1%，Gemini-3-Pro从26.0%降至9.1%。

这种巨大差异说明了两个关键问题。首先，CHAIN中的任务无法通过预先计算的静态推理可靠解决，必须依赖基于中间反馈的动态调整。这证明了交互式评估确实在测试AI的闭环物理推理能力，而非简单的模式识别。其次，即使是适度的成功也依赖于迭代的约束发现过程，而非仅从初始观察就能完全推导出最终方案。

团队还探索了多重采样和奖励模型重排序等常见优化策略的效果。令人惊讶的是，传统的“生成多个候选方案再选择最佳”的策略在CHAIN任务上效果有限，Pass@2和Pass@4的成绩提升微乎其微。这表明问题的根源不在于输出的随机性，而在于AI对物理约束理解的根本性不足。

同样，基于奖励模型的候选方案重排序也只带来了边际改善。无论是专门训练的奖励模型，还是使用更强的视觉语言模型作为判断器，其改进效果都不如简单的多次采样。这暗示着，当前奖励信号的质量尚不足以可靠地区分复杂物理任务中的优劣策略。

视频生成模型的物理推理能力测试

除了文本和图像模型，研究团队还将评估扩展至最新的视频生成模型，包括SORA 2、WAN 2.6、VEO 3.1、KLING 2.6和HUNYUANVIDEO 1.5。他们设计了一个特殊子任务：给模型展示一张完整的鲁班锁图片，要求其生成展示正确拆解过程的视频。

测试设计极其严格。团队提供了详细的物理约束说明：所有部件均为刚性木块，不可弯曲变形；不允许部件互相穿透；运动必须连续，不能突然传送；每个部件只能沿允许方向滑动，在完全脱离前不能旋转；必须遵循真实的解锁顺序；严格匹配参考图片的几何形状和部件数量。

测试结果令人震惊：没有任何一个视频生成模型能够成功完成拆解任务。所有模型都表现出系统性的、灾难性的失败，且问题严重程度随结构复杂度增加而加剧。

在简单的两根木条拼图测试中，一些模型表现出对指令的表面理解，但严重违反了基本物理法则。SORA 2和WAN 2.6常常生成直接平移提取目标木条的动画，完全忽略了互锁约束使这种运动在物理上不可行。当任务复杂度提升至六根木条时，这些模型越来越频繁地偏离规定的逐步程序，转而执行随机或未定义的动作序列。

其他模型的问题更为严重。VEO 3.1、KLING 2.6和HUNYUANVIDEO 1.5经常出现表征崩溃，丧失对物体结构和身份的一致性。在简单任务中，它们常生成损坏的配置，包括扭曲的几何形状和虚假组件。在复杂任务中，这种行为升级为完全的幻觉：模型可能会凭空添加、移除或合并木条，或将整个拼图转换为无法识别的结构。

这些结果表明，尽管现代视频生成模型可以产生视觉上令人信服的运动或模拟简单的物理事件转换，但它们在处理结构化、约束驱动的多步交互任务方面仍然完全不可靠。特别是需要基于对象中心推理和物理可行性的复杂操作，已远远超出当前模型的能力范围。

难度分层揭示的AI能力边界

通过详细分析不同难度级别的任务表现，研究团队清晰地勾勒出了当前AI能力的边界。

在装箱任务中，AI性能随难度增加而平滑下降，这表明其具备一定程度的可扩展空间推理能力，只是在复杂性增加时会逐渐失效。具体而言，顶级模型如GPT-5.2和Claude-Sonnet-4.5在简单任务上能达到100%的成功率，显示出对基础3D空间推理的完全掌握。在中等难度任务上，GPT-5.2保持55.0%的成功率，而Claude-Sonnet-4.5降至20.0%，表明不同模型在处理复杂空间关系时能力存在显著差异。在困难任务上，所有模型的表现均急剧下降，最佳结果也只有6.3%。

这种渐进式下降模式说明，装箱任务的瓶颈主要在于随约束增加而指数级增长的搜索空间，以及避免后期空间碎片化所需的长远规划能力。AI具备基本的几何推理，但缺乏复杂场景下的全局优化策略。

相比之下，拼图任务展现出完全不同的“悬崖式”性能下降特征。即使在最简单级别，顶级模型的成功率也仅有10.0%，而中等和困难级别的成功率更是降至0.0%。这表明，拼图任务的主要瓶颈并非渐进的复杂性增加，而是对3D互锁和结构中心推理本身的根本性困难。

这种差异揭示了AI在不同类型物理推理中的能力分布。对于主要依赖空间几何关系的任务，AI展现出一定的可扩展能力，尽管在复杂场景下会遇到规划深度的限制。但对于需要推理隐藏约束和多体相互作用的任务，AI表现出更根本性的理解缺陷。

研究意义与未来展望

这项研究的意义，已远超对AI技术本身的性能评估，它为我们理解智能系统如何与物理世界交互提供了全新的视角与基准。CHAIN平台首次系统性地揭示了当前最先进AI在物理推理方面的真实能力边界，打破了基于静态图像测试可能产生的过度乐观估计。

从技术发展角度看，研究结果指出了几个关键的改进方向：一是提升从部分观察中推断隐藏几何关系的能力；二是增强长期规划与预见能力，使AI能更准确地评估早期决策对后续行动空间的影响；三是完善闭环学习与适应机制，让AI能从交互反馈中快速调整策略，减少无效试错。

从应用前景来说，这项研究为评估AI系统在实际部署中的可靠性与实用性提供了重要基准。无论是工业机器人、家庭服务机器人，还是虚拟现实中的智能助手，都需要具备与物理世界进行安全、高效、复杂交互的能力。CHAIN平台可在这些系统实际部署前，提供可靠的能力评估与压力测试。

研究团队也坦承了当前工作的局限性。由于每个高质量的机械拼图都需要大量手工建模、物理调试和验证，目前的拼图任务数量相对有限。虽然装箱任务可以程序化生成无限变化，但拼图任务的扩展需要更多的工程投入。此外，由于闭环交互的高计算成本，目前的评估主要基于单次尝试，未来需要更多计算资源来支持更全面的多次采样评估。

展望未来，团队计划在几个方向扩展这项工作：一是增加任务多样性，添加如流体力学、弹性变形、铰链运动等更多类型的物理推理挑战；二是优化评估协议，开发更高效的交互机制以降低评估成本；三是与实际机器人平台进行整合，将虚拟环境中的研究发现转化为指导真实世界机器人应用的设计原则。

归根结底，这项研究提醒我们，尽管AI在图像识别、文本生成等领域取得了瞩目进展，但在理解和操作我们赖以生存的复杂物理世界方面，仍有很长的路要走。真正通用的人工智能不仅要能看、能说，更要能在复杂、多变、充满约束的物理环境中做出明智决策并执行有效行动。CHAIN平台为这一宏伟目标的实现提供了重要的测量工具、清晰的改进方向与严谨的评估标准，也让我们对AI技术的未来发展有了更清醒、更准确的认识。

对广大读者和科技爱好者而言，这项研究的启示是双重的。一方面，它让我们看到当前AI技术的真实边界，避免对其能力产生不切实际的期待或恐惧。另一方面，它也展示了前沿科学研究如何通过构建严谨的评估基准与方法论，一步步推进人类对智能本质的理解。无论AI技术如何演进，人类独有的创造力、物理直觉、综合判断与适应能力，在可预见的未来，仍将是不可替代的宝贵资源。

Q&A

Q1：CHAIN测试平台与传统AI评估方法有什么根本区别？

A：传统AI评估主要让AI进行“看图说话”式的静态推理，如同学生只看教科书而不做实验。CHAIN平台则要求AI在模拟的3D物理环境中实际操作物体，通过多步骤的闭环交互来完成任务，能真正测试AI是否理解物理世界的约束关系、因果逻辑以及动态调整策略的能力。

Q2：为什么AI在装箱任务上比拼图任务表现更好？

A：装箱任务主要考验空间几何推理和局部优化能力，AI在这方面具备一定的可扩展性。而拼图任务需要推理隐藏的几何约束、复杂的零件依赖关系以及精确的操作序列，这种结构化的、基于约束的物理推理是当前AI的根本性弱项。因此，即使在最简单的拼图任务上，AI的成功率也极低。

Q3：当前最强AI模型在CHAIN测试中表现如何？

A：表现最好的GPT-5.2模型整体成功率仅为22.9%。其能力存在明显分化：在拼图任务上几乎全部失败（成功率仅3.1%），在装箱任务上稍好（成功率31.2%）。这说明即使是最先进的AI，在需要真正动手操作和复杂物理推理的任务中，其能力仍远低于人类水平，尤其在处理隐藏约束和复杂依赖关系时面临巨大挑战。

来源:https://www.techwalker.com/2026/0302/3179973.shtml

上一篇：华中科技大学TextPecker技术革新AI文字图像生成告别错字时代

下一篇： AI赋能基因治疗载体精准靶向肾脏疾病新突破