布朗大学团队用蒙眼训练法让AI学会预测互动

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

布朗大学团队用蒙眼训练法让AI学会预测互动

热心网友时间：2026-05-13

转载

这项由布朗大学、纽约大学、Mila和蒙特利尔大学等顶尖机构联合开展的研究，在2026年2月13日以预印本形式发布，为AI理解物理世界的底层逻辑，带来了一个颇具巧思的突破。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

智能机器如何像人类一样理解世界：Brown大学团队用

不妨想象一个场景：闭上眼睛摆弄桌上的积木，你依然能大致推演，推动其中一块会引发怎样的连锁反应。这种能力，源于我们对物理世界物体间相互作用的本能理解。如今，研究人员找到了一种方法，让人工智能也学会了这种“闭眼推演”的本事。

关键在于一个名为Causal-JEPA（简称C-JEPA）的系统，其训练方式堪称巧妙：主动“蒙住”AI的“眼睛”，隐藏场景中部分物体的信息，迫使它只能通过观察其他物体的动态，来推测那些“看不见”的物体发生了什么。这就像一位侦探，即便线索缺失，也必须依据现有证据拼凑出完整的真相。

这种方法的精妙之处在于，它堵住了AI“偷懒”的后路——无法再依赖死记硬背物体的运动轨迹，而是必须真正搞懂物体之间是如何相互影响的。效果如何？数据显示，在需要回答假设性问题的视觉任务中，AI的准确率提升了约20%；而在机器人控制任务中，它仅用传统方法1%的计算资源，就达到了同等性能水平。

更值得玩味的是，团队不仅做到了，还从理论上揭示了为何这种“蒙眼”训练如此有效：它本质上是在强制AI学习因果关系，即理解“何因导致何果”，而这正是智能推理的核心所在。

一、AI理解世界的挑战：从看图片到懂互动

当前，AI在识别静态图片方面已堪称专家，但让它们理解动态世界中物体的相互作用，则完全是另一回事。这好比要求一个擅长背诵课本的学生，突然去解决一个从未见过的物理实验问题。

传统训练方法，有点像让学生做大量的“填空题”——输入一张图片，输出对应的标签。但真实世界复杂得多。当一个球滚向一堆积木，AI需要理解的远不止“球”和“积木”这两个概念，更重要的是“撞击会导致积木倒塌”这一因果链条。

现有的技术虽然能让AI识别并区分场景中的不同物体，就像能准确指出照片中的每个人，但它们往往难以把握这些物体之间如何彼此影响。这就像一个摄影师能完美捕捉婚礼现场的每位宾客，却无法理解新郎新娘之间的情感纽带，或宾客间的社交网络。

问题的根源在于，大多数AI在训练时看到的都是“全知视角”——所有信息一览无余。这就像学生每次做题都能看到标准答案，自然难以培养独立推理的能力。当AI总能掌握所有物体的完整状态时，它很容易学会一些“捷径”，比如单纯记忆运动模式，而非理解背后的物理规律。

于是，研究团队转换了思路：要让AI真正理解世界，或许得先让它习惯在信息不全的情况下思考。就像教孩子解题，不能总是给出全部提示，而要训练他们从已知推导未知的能力。

这一挑战在机器人等实际应用中尤为突出。例如，机器人需要预测推动一个物体后会发生什么，这种预测能力直接关乎任务成败。如果它只是记住了几种固定模式，而非理解通用规律，那么环境稍有变化，就可能束手无策。

在涉及多个物体的复杂场景中，这种相互依赖的网络关系更为棘手。传统方法往往难以捕捉这种复杂的互动模式，因为它们缺乏一种机制，来强制AI去学习那些真正关键的依赖关系。

二、巧妙的“蒙眼训练法”：让AI学会推理而非记忆

为了突破传统方法的局限，研究团队设计了一套革命性的训练策略——Causal-JEPA。其核心思想简单却深刻：在训练中，随机“遮挡”部分物体的信息，逼着AI通过可见物体来反推被遮部分的状态。

这类似于训练象棋大师的一种方法。如果学员总是能看到完整棋盘，他可能只会记住一些固定棋谱。但如果你偶尔遮住几个棋子，让他根据其余棋子的布局来推断被遮棋子的可能位置与作用，他就必须真正理解棋子间的战略关联。

C-JEPA的工作流程可以这样理解：系统先用一个物体识别器，将视频中的各个物体转化为数字化的“代表”。随后，在训练时，随机选择一些物体将其信息“隐藏”，然后要求AI依据其他可见物体的行为，预测这些被隐藏物体的状态。

整个过程，就像让AI玩一个高级的“推理游戏”。例如，在一段台球视频中，若系统隐藏了某个球的信息，AI就必须通过观察其他球的运动轨迹与碰撞效果，来推断那个“消失”的球在何处、如何运动。这迫使AI放弃简单的模式匹配，转向理解台球间的物理作用规律。

为确保有效性，团队还引入了一个巧妙的“身份锚点”机制。由于物体在视频中间出现的顺序可能变化，系统需要明确知道被隐藏的是哪个物体。因此，他们在每个时间序列开始时保留一个“身份标识”，让AI明确任务目标。

这种训练法的另一个关键，是结合了两种学习目标：一是根据历史信息重建被隐藏的物体状态（理解当下），二是预测未来的可能情况（推演未来）。这就像要求学生既能根据上下文填空，又能续写故事后续情节。

与需要逐像素重建图像的传统方法不同，C-JEPA只需在抽象的“概念空间”中理解物体关系。这大幅降低了计算负担，也让AI能更专注于学习重要的相互作用模式，而非纠缠于像素细节。

该方法还具有高度的灵活性。系统可以整合其他信息，如机器人的动作指令，作为辅助变量来帮助AI更全面地理解场景中的因果关系。就像一个侦探，不仅勘查现场，还要结合时间线、动机等多重线索来还原真相。

三、令人惊叹的实验效果：AI推理能力的质的飞跃

为了验证方法的普适性，团队通过两个截然不同的任务进行测试：一是考察视觉推理能力，二是检验在实际控制任务中的表现。结果，这种“蒙眼训练法”带来的提升超出了许多人的预期。

在视觉推理测试中，研究人员使用了专门设计的CLEVRER数据集。该数据集包含大量物体碰撞、弹跳的视频及相应问题，堪称AI的“物理考试题库”。

问题设计得很巧妙，分为四类：描述性问题（发生了什么）、预测性问题（将会发生什么）、解释性问题（为什么会发生），以及最具挑战性的假设性问题（如果某个物体不存在会怎样）。

C-JEPA在所有类型问题上都表现优异，但最突出的突破体现在假设性推理上。传统方法在此类问题上的准确率仅为47.68%，而C-JEPA达到了68.81%，提升了超过21个百分点。这意味着AI开始真正学会理解因果关系，而非仅仅记忆表面现象。

为何假设性推理如此关键？因为它要求AI具备“反事实推理”能力——即思考“如果情况不同，会怎样”。这正是人类智能的一个标志性特征。现在，AI也开始触碰这种能力了。

在实际的机器人控制任务（Push-T任务）中，C-JEPA的表现更令人印象深刻。该任务要求机器人将一个T形物体推到指定位置，涉及复杂的接触动力学。

传统方法需要处理超过7.5万个特征才能完成此任务，而C-JEPA仅需768个特征——计算量仅为前者的1%！更惊人的是，在资源消耗大幅降低的同时，C-JEPA的任务成功率（88.67%）与传统方法（91.33%）相差无几。

这种效率优势直接转化为实际性能：在相同硬件下，C-JEPA的规划速度比传统方法快了8倍以上，这意味着机器人能更快做出决策，实时响应环境变化。

进一步的对比分析证实，性能提升确实源于“蒙眼训练”策略本身，而非仅仅是采用了物体中心表示。研究还发现，遮挡3-4个物体时效果最佳，遮挡过多反而会降低性能——适度的挑战促进学习，过度的困难则阻碍理解，这与人类的学习规律不谋而合。

四、深层机制揭秘：为什么“蒙眼睛”如此有效

那么，这种看似简单的“蒙眼”训练，为何能产生如此显著的效果？团队不仅证明了其有效性，还从理论层面剖析了背后的机理。

本质上，当AI被迫在信息不全的条件下进行预测时，它不得不去寻找那些真正起作用的因果关系。这就像侦探在证据链断裂时必须抓住核心线索，理清逻辑关系。

研究团队用“影响邻域”这个概念来阐释。简单说，对于任何一个被隐藏的物体，总有一些其他物体或信息是预测其状态所必需的，这些关键信息就构成了它的“影响邻域”。例如，要预测一个台球的运动，你需要知道即将撞它的球的信息，但不必关心球桌另一端静止的球。

这种训练法，正是在教AI识别这些关键的“影响邻域”。通过反复练习在缺失信息下做预测，AI逐渐学会了区分关键信号与干扰噪声。这个过程，如同新手司机成长为老手——从被沿途所有细节分散注意力，到能专注判断影响驾驶安全的核心信息。

从数学上可以证明，这种训练能让AI学到“干预稳定”的预测关系。也就是说，AI掌握的不是偶然、表面的关联，而是真正的因果关系。这种关系在不同条件下依然成立，这使得AI学到的知识具备强大的泛化能力，能够适应未曾见过的新场景。

有趣的是，这种方法与人类的学习方式存在相似性。婴儿在认识世界时，也常面对信息不完整的情况（如玩具被部分遮挡），但这恰恰促进了他们对物体完整性和运动规律的深层因果理解。

从应用角度看，该方法还有一个巨大优势：它无需人工预先标注复杂的因果关系图。在现实复杂场景中，让专家事先定义所有变量间的因果联系几乎不可能。C-JEPA通过自监督学习，让AI自己发现这些关系，极大降低了应用门槛。

理论研究还为未来改进指明了方向。例如，训练中使用的双向注意力机制（既从过去推现在，也从现在测未来），帮助AI学到了方向无关的相互作用模式，使其理解更为全面。

五、广阔应用前景：从实验室到真实世界

这项研究的价值，早已超越了学术论文的范畴，它为AI在真实复杂场景中的应用，打开了一扇新的大门。C-JEPA所展现的因果理解与交互预测能力，正是许多前沿应用梦寐以求的。

在机器人领域，变革可能即将到来。传统机器人多在受控环境中工作，因其难以应对复杂的物体交互。而具备因果推理能力的机器人，能更好地理解和预测环境变化，从而在动态、非结构化的场景中游刃有余。

设想一个家庭服务机器人整理桌面的场景。它不仅要识别物品，还需理解移动一件物品会如何影响其他物品。例如，移动一摞书的最底层，可能导致整摞书倒塌。C-JEPA能让机器人预见到这种后果，从而更安全、高效地完成任务。

自动驾驶领域同样渴求这种能力。车辆不仅要感知周围的车辆、行人，还需预测它们的行为及相互影响。例如，看到行人过马路，系统需要推断：如果我减速，后车会如何反应？这种多层次因果推理，是确保行车安全的关键。

在工业制造中，C-JEPA的高效性价值凸显。传统工业视觉系统常受限于高昂的计算资源。而C-JEPA以1%的资源消耗达到相近性能，意味着它能部署于更廉价、低功耗的设备上，让智能视觉技术惠及更多生产线。

游戏与娱乐产业也能借此打造更逼真的虚拟世界。游戏中的NPC将不再机械地执行脚本，而是能理解环境物体的相互作用，做出更合理、更富趣味的决策，极大提升沉浸感。

教育领域同样能受益。想象一个物理教学系统，能理解实验器材间的相互作用并预测结果，为学生提供直观、生动的学习体验，化抽象概念为具体感知。

医疗影像分析是另一个潜力领域。医生分析CT或MRI图像时，需要理解不同器官组织间的空间关系与相互影响。具备因果推理能力的AI辅助系统，或许能提供更精准、全面的诊断参考。

当然，团队也坦诚指出了当前方法的局限。系统的表现很大程度上依赖于底层物体识别器的精度。若感知不准，后续推理便是“垃圾进，垃圾出”。这意味着在实际部署中，需要扎实的感知系统作为基石。

此外，系统在相对简单的测试场景中表现出色，但在物体更多、交互更复杂的真实环境中的性能，仍需进一步验证。如何处理感知数据中的噪声与不确定性，让系统在“不完美”输入下依然稳健推理，也是未来的技术挑战。

尽管前路仍有挑战，但团队对前景充满信心。随着物体识别技术的持续进步与更多真实世界数据的积累，像C-JEPA这样的因果推理系统，必将在越来越广阔的场景中证明其价值。

六、技术创新的深层价值：重新定义AI的学习方式

这项研究的深远意义，不仅在于一项具体的技术突破，更在于它提出并验证了一种全新的AI学习范式。C-JEPA的成功揭示了一个核心观点：教会AI如何思考，远比让它记住答案更为重要。

传统的主流方法是“监督学习”——给AI海量的“问题-标准答案”对，训练其匹配关系。这如同让学生反复刷题直至熟记答案，培养的是记忆能力，而非理解能力。

C-JEPA采用的“自监督学习”则截然不同。它不依赖外部标注的“标准答案”，而是让AI通过解决自己提出的“内在问题”（如从部分推测整体）来学习。这更像是在培养学生独立思考和逻辑推理的能力。

这种范式优势明显。首先，它摆脱了对大量人工标注数据的依赖，极大降低了训练成本与门槛。在复杂场景中，何为“正确答案”本身就可能难以界定。

其次，它培养的是更具通用性的能力。通过掌握因果推理，AI获得的不是针对特定任务的“技能点”，而是一种可迁移到多种情境的“思维方式”。就像掌握了数学原理的学生，能将其应用于解决各类实际问题。

从计算效率看，C-JEPA的成功同样意义重大。当前AI模型规模与能耗激增已成为不可忽视的问题。C-JEPA证明，通过更智能的学习方法，完全可以用少得多的计算资源，达成更优或相当的效果。

这种效率提升不仅是技术优化，更具环境与社会价值。若能以更高能效的方式推进AI智能，将在技术发展的同时，减轻其对环境的负担。

从认知科学视角看，C-JEPA的学习机制与人类婴儿认知发展过程惊人地相似。婴儿正是在面对部分被遮挡的物体等不完整信息时，逐步构建起对物体恒存性与因果律的理解。

C-JEPA也促使我们重新审视“何为智能”。传统AI可能在特定任务上表现卓越，但缺乏灵活性与适应性。而C-JEPA展现的因果推理能力，更接近我们对通用智能的期待——不仅能处理已知情况，还能对未知情境进行合理推演。

这项研究也开辟了新的探索方向。既然“蒙眼训练”在视觉理解中如此有效，类似的思路能否迁移到其他领域？例如，在自然语言处理中，通过遮蔽部分词语来训练AI更深层的语义逻辑？在语音识别中，通过部分遮蔽音频来提升其对上下文的理解？

这些探索或将催生更多突破，推动整个AI领域向着更智能、更高效的方向演进。C-JEPA不仅是一个技术成果，更是一个新起点，为未来的研究照亮了前路。

归根结底，这项研究最令人兴奋之处在于，它让我们看到了AI向“真正理解世界”迈出坚实一步的可能性。它不再仅仅是模式的匹配者或记忆的检索器，而开始尝试成为世界的推理者。尽管创造具备人类水平理解力的AI依然道阻且长，但C-JEPA的成功无疑让我们相信，这个方向是可行的，且未来可能比预期来得更早。

Q&A

Q1：Causal-JEPA是如何工作的？
A：Causal-JEPA的核心是“蒙眼训练法”。在训练过程中，系统会故意隐藏场景中部分物体的信息，迫使AI只能通过观察其他物体的行为，来推测被隐藏物体的状态。这种方法杜绝了AI依赖简单记忆的可能，逼使其必须理解物体间的因果关系，类似于训练侦探在证据不全时进行逻辑推理。

Q2：Causal-JEPA相比传统方法有什么优势？
A：主要优势体现在两方面：一是能力提升，在需要反事实推理的视觉问答任务中，其准确率较传统方法提升约20%；二是效率飞跃，在机器人控制任务中，它仅需传统方法1%的计算资源即可达到相近性能，且规划速度快了8倍以上。更重要的是，它培养的是通用的因果推理能力，而非针对特定任务的机械记忆。

Q3：Causal-JEPA的训练方法为什么这么有效？
A：研究揭示，这种方法强制AI学习识别每个物体的“影响邻域”——即预测其状态所真正依赖的关键信息。通过在信息不完整的条件下反复练习，AI学会了剥离偶然关联，捕捉稳定的因果关系。这使得其获得的知识具备强大的泛化能力，能够适应并准确预测新的、未见过的场景。

来源:https://www.techwalker.com/2026/0225/3179628.shtml

上一篇： Meta AI新突破：个性化记忆功能终结千人一面智能体验

下一篇：理想汽车李想揭秘自研AI芯片马赫M100 四年前布局获市场验证