人大思辨Sora是否理解物理世界运行规律

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

人大思辨Sora是否理解物理世界运行规律

热心网友时间：2026-05-16

转载

Sora发布至今，虽然仍未正式对外开放，但关于其技术细节与实际影响的讨论，早已在业界内外掀起波澜。这些讨论的背后，其实是对人工智能本质问题更深层次的叩问。

一方面，Sora的出现，无疑是对传统视觉生成思路的一次全面检验与校正。而另一方面，它所引发的关于多模态大模型与物理世界的关系、AGI（通用人工智能）的实现路径等思考，则更具启发性。

核心问题聚焦在两点：其一，Sora令人惊艳的生成效果——高分辨率下的主体一致性、流畅的多角度镜头变换——是否意味着它已经是一个“世界模型”？它能否真正理解物理世界？其二，OpenAI所坚信的“大力出奇迹”的Scaling Law（规模定律），其边界究竟在哪里？纯数据驱动的路线，能否最终通向AGI？

围绕这些议题，2024年3月20日，中国人民大学高瓴人工智能学院举办了一场关于Sora的思辩会。现场观点交锋激烈，碰撞出不少值得行业深思的火花。

文继荣院长在辩论会现场谈到，ChatGPT出现后，学院拿出了“All in大模型”的决心；而在Sora出现的2024年，全院也在探讨新的定位与前进方向。无论如何，最终都会回归学院的初心：创造智能而有温度的未来。

以下是辩论现场的精华实录，经过不改变原意的整理：

一、智能还是伪装：Sora到底懂不懂物理世界？

正方黄文炳：

我们认为Sora懂物理世界。从已发布的视频来看，无论镜头如何旋转，画面所呈现的时间连续性、空间切换后的主体不变性、光影的反射与变化，都与物理世界的规律相符。如果不是基于对物理规律的理解，那这些一致性从何而来？

这里需要厘清一个概念：我们说的是懂“物理规律”，而非“物理学规律”。前者是大多数人在日常生活中能直接感受到的常识，比如球会从高处落下；后者则是物理学家通过实验和理论推导出的严格公式。今天的辩题是“懂物理世界”，指的正是我们普通人所感知的那个世界。

那么，什么叫“懂”？或者说，什么叫“学到”？有人认为Sora不懂物理公式，所以不算懂。但这或许是混淆了“AI的懂”与“人类的懂”。回顾图灵测试的核心：如果大多数人在随意提问下都无法区分对方是机器还是人，那么这台机器就具备了智能。从这个角度看，生成即智能。只要Sora生成的内容，让人通过常理无法分辨真伪，那它就是学到了，就是懂了。

反方孙浩：

首先需要纠正对“物理世界”的定义。物理世界是由自然规律和物理学定律支配的客观宇宙，包括守恒、对称等基本原则。如果Sora真懂物理世界，它生成的视频就必须能准确模拟和刻画这些规律，但目前显然还达不到。

Sora的基本运行机制，是基于Diffusion Transformer对视频和文本数据进行压缩和学习其分布。然而，仅凭二维的视频和语言数据，想要完整描述三维的客观世界，存在天然的局限性。许多物理过程（如流体演化）需要特定的状态量才能准确描述，有限维的数据训练出的模型，其表达能力是不够的。生成内容的“逼真”与“真实”是两个概念。就像传统动画渲染技术也能做出逼真效果，但这不代表它理解了现实。

当然，我们并不否认Sora在创意设计和视觉表现上的巨大潜力。

正方魏哲巍：

著名物理学家费曼有句名言：“What I cannot create, I don't understand.”（我不能创造的东西，我就不理解。）其逆否命题是：我能理解的，我就能创造。反过来看，能够创造（生成）是否就意味着理解？我们认为是的。

以水浪为例，其背后确实有一系列波动方程，但普通人理解水，需要先懂这些方程吗？显然不需要。人们通过观察，知道水会波动、物体会下落，这就构成了对物理世界的理解。这种理解与Sora通过海量视频数据学习到的“常识”，在本质上可能并无不同。牛顿发现万有引力，也绝非仅仅因为一个苹果砸中脑袋，而是基于前人大量的研究和自身的深刻思考。人类对物理的理解，本身也是一个从表象到抽象的过程。既然Sora能生成符合物理规律的内容，为何不能说它理解了呢？

反方徐君：

Sora无法理解物理世界的一个关键原因在于，它试图从大量“非实验”的观察数据中发现规律。统计学中有个重要结论：“非干预，不因果”。如果不能对世界进行主动干预和实验，算法就难以发现真正的因果规律，而只能学到相关性。物理规律的核心特征之一，正是描述现象间的因果关系。因此，无论是Sora还是ChatGPT，如果仅以当前这种被动收集数据的方式训练，它们学到的大概率是“相关”而非“因果”，这是其根本局限。

再者，回顾人类发现物理规律的历程，科学突破往往需要“反直觉”的思考和假设。亚里士多德认为“物体不受力则静止”，这非常符合直觉，却错了上千年。直到伽利略、牛顿提出“物体不受力则保持匀速直线运动”这一反直觉的假设，现代物理学的大厦才得以建立。此外，物理学中许多至关重要的理想模型（如“黑体”），在现实世界中根本无法直接观测到，却对理论构建不可或缺。如果Sora仅依赖对现实世界的被动观察和直觉拟合，缺乏这种反直觉的推理和假设能力，它恐怕永远无法触及真正的物理规律。

正方宋睿华：

对方辩友认为掌握物理规律需要反直觉思考和实验干预，这其实是以人类为中心的观点。物理世界客观存在，无论有没有人类，规律都在那里。不能说只有人类理解世界的方式才叫“理解”。

看看机器学习的核心范式：建立模型、定义参数、在数据上定义损失函数、进行优化。物理学家的工作范式何其相似：提出假设（公式）、引入参数、在理想实验条件下获取数据、计算理论与实验的偏差（损失）、然后优化理论模型。今天的神经网络，其函数逼近能力极其强大，学习过程本身就可被视为一种智能。为何人类提出的公式和实验才叫智能，机器的学习过程就不是呢？

对方提到的“特征工程”（feature engineering），在传统机器学习中很常见，即人工设计有用的特征。物理学家发现定律的过程，某种程度上不也是一种更为精巧的“特征工程”吗？他们找到了一条能很好解释现象的“特征”（公式），并用实验验证其普适性。这只是一种对物理世界更“狭隘”的刻画方式。

当然，Sora目前生成的内容中确实存在反物理的现象。但“懂物理世界”和“精确地懂物理世界”不能划等号。人类闭上眼睛想象两个海盗船在咖啡杯里航行，就能在脑海中精确模拟出每一帧符合物理的画面吗？恐怕也不能。

反方许洪腾：

首先，能生成逼真视频与懂物理世界之间，没有必然联系。类比人类，建筑师能画出精妙的图纸，画家能创作写实的作品，但这不代表他们深刻理解背后的物理原理。原始人能用石头搭建住所、在岩壁上作画，那时他们对物理世界的理解几乎为零，但不妨碍他们进行创造。

其次，人类理解物理世界有一套严格的方法论：提出假设、进行观测、设计实验、验证反演。而Sora这类生成式模型的学习范式是数据驱动。给它数据，它最多算是“观测”到了现象，且这些数据并非在严格控制的实验环境下获得。在这种情况下说它理解物理世界，恐怕是一种超出我们当前认知的方式。

最后，Sora的强大，或许恰恰因为它“不懂”物理世界。基于统计相关性学习，它能够将有关联的事物进行天马行空的融合，生成如“龟壳像水晶球的乌龟”、“咖啡杯中战斗的海盗船”这类超现实画面。更早的图像生成模型也能生成“太空骑马”的场景。这些创作正因为它不受物理规律的严格束缚，才能基于统计相关性构筑自己独特的世界。因此，我们认为Sora并不真正理解物理世界。

自由PK环节

正方：有一种观点认为ChatGPT不懂语言。但OpenAI首席科学家伊利亚·苏茨克维曾表示，能够做下一个词预测（next token prediction），就是理解了语言。他举过一个例子：给大模型一篇悬疑小说，让它预测凶手是谁。如果它能准确预测，这算不算理解了小说？同理，Sora能生成符合物理规律的视频，为何不算理解物理世界？

反方：图灵测试更像一个工程测试：没通过，说明能力不足；但通过了，未必代表真懂。好比考试，没通过肯定没学懂，但通过了也可能是死记硬背。所以图灵测试的说服力有限。

正方：恰恰相反，我们认为Sora正在通过一种新的“电影测试”。测试两点：一是生成视频让人看，能否辨别真假；二是用视觉而非问答的方式，让人判断其是否智能。这或许是图灵测试在视觉领域的演进。

反方：什么叫懂物理世界？必须与真实世界一致。一个AI如果只训练过《哈利·波特》的数据，它也能预测下一帧魔法画面，但它懂的是魔法，不是物理。

正方：我方坚持，达到常人的理解水平即可，不需要懂物理公式。生活中，看到车来了，你会用牛顿第二定律计算躲避时间吗？不会，你靠的是经验和直觉预测。这种理解允许有误差。人类对物理的理解也是片面且不断进步的。我们不能穿越回去指责亚里士多德不懂物理，也不能断言当前的理解就是终极真理。物理规律本身，也是物理学家在有限观察下，通过统计、验证归纳出来的。随着观察深入，旧定律也可能被修正。因此，不能要求Sora一诞生就精通所有物理定律。

二、纯数据驱动路线能不能实现通用人工智能？

反方许洪腾：

我理解的AGI是类人的人工智能，具有一定通用性。人类确实从数据中学习，这证明从数据中获取信息是可行的。但我反对纯数据驱动路线，主要因其效率低下，从算力和数据角度看可能不可行。

人类拥有经过亿万年演化而来的特殊大脑结构，这是我们的“初始设计”。这种演化效率极低，经历了无数代迭代和数据接收。我不认为这是实现AGI的合理技术路线。此外，我们已面临能源和数据瓶颈。按照OpenAI的数据消耗趋势，很快训练视频数据的速度将超过人类生产数据的速度。届时可能需要Sora自己生成数据来训练自己，那还是传统意义上的“纯数据驱动”吗？它还能自我进化吗？这些都是疑问。

正方毛佳昕：

首先，这个议题与第一个不同，它是对未来的预测。我们认为数据驱动路线成功的概率很大。

看历史数据：AI发展早期，感知任务被认为很难，但足够的数据解决了它；后来语言、认知任务被认为很难，ChatGPT的出现又解决了。历史趋势表明，数据驱动是一条有效的路径。

再看类比数据：人类本身就是一种通用智能。人类学习物理，不也是通过看书（数据）、做题（数据）吗？这与大模型通过数据学习物理题的模式本质相同。

关于效率，杰弗里·辛顿（Hinton）最近的观点有所转变。他承认人脑在计算能耗上效率极高，但其最大缺陷是通讯效率差——想法难以直接复制传递。而基于数字计算机的大模型，其模型间信息传递（如梯度同步、参数复制）的效率远超人脑。可以想象，大模型相当于让成千上万个和你一样聪明的人同时读书、交流，其智能积累速度是惊人的。

最后，这个辩题中“数据驱动”的反面，并非物理定律（物理知识对大模型也是数据），而是“理论驱动”（theory driven），即基于对人类认知方式的理论来设计AI。辛顿过去研究生物可塑性（biological plausible）的神经网络，就属于这一路径，但他最近的转变值得深思。

反方沈蔚然：

首先，我们对AGI的期待很高，希望它在大多数任务上超越人类。纯数据驱动能否实现这一目标？对方说人类通过看书学习，但书上的理论是前人总结的“结果”，而非原始“数据”。数据应是实验得到的观测结果。

关键在于，当前的数据驱动方式，难以将数据总结成简洁、可理解的理论，并在此基础上进行推导。要实现超越人类的AGI，这可能是绕不开的坎。数学上，用数据拟合某些复杂函数，理论上需要无穷多的数据，效率极低。而用数学语言描述则简洁得多。要实现广泛的通用性，纯数据驱动可能难以跨越某些函数类别的鸿沟。

正方林衍凯：

对方辩友似乎在切换辩题，将“能否实现”偷换为“能否在有限资源下高效实现”，或将AGI定义为“必须超越人类”。

从技术角度看，大模型并非简单的记忆组合（memory combination）。训练过程本质上是数据压缩和寻找规律的过程，模型为了优化目标函数，会自发地寻找能更好拟合数据的规律，并涌现出新的能力。这指向了类似人类思考的演化。

至于数据有限的问题，真实世界的数据本质上是无限的。大模型不仅可以利用现有的文本、视频数据，未来还可以通过与物理世界互动（如机器人）自主探索，获取无限的新数据。在此基础上学习更多知识和规律是可行的。

反方孙浩：

“实现”一词本身就包含了现实可行性。如果一个路径理论上可行但资源上做不到，那答案就是“不能”。

世界是复杂的，但我们认知世界的方式可以很简洁。不同科学领域用自己的一套语言（如微分方程）来描述世界，这套语言基于少量数据、人的假设和推理形成，却具有很强的通用性。数据是关键要素，但不是唯一要素。如果将其视为实现AGI的唯一要素，在定义和理解上就存在偏差。

正方黄文炳：

辩题问的是“能不能”，而不是“在数据有限的条件下能不能”。只要在足够数据的理想前提下，就有可能。

关于AGI的定义，它指的是机器处理大多数任务的通用能力（AGI），而非无所不能的“万能智能”（AUI）。数据驱动可能无法实现解决所有科学难题的智能，但这不影响它实现日常生活中所需的通用智能。

我们承认，在物理等特定领域，由于数据获取难、存在严格假设（如对称性），纯数据驱动可能行不通。但这与实现通用人工智能的辩题并不矛盾。

自由PK环节

反方：我的答案是不能。假设有两个不同版本的Sora，对世界的理解不同，哪个是对的？可能一个对，也可能都错。这说明其认知很不稳定。难道模型版本更新，我们对世界的认识也要跟着刷新？这不合理。此外，认识世界不仅需要数据（经验），还需要理性的处理能力，两者缺一不可。目前Sora仅接触文本、图像、视频数据，其他领域数据（如嗅觉、触觉）完全缺失，从数据源上就被限制了。其模型架构（Diffusion + Transformer）也难以产生真正的理性分析和想象能力。因此，无论从经验还是理性角度看，AGI都被“锁死”了。

正方：关于效率，Hinton观点的转变正说明问题。人脑高效但通讯差，而大模型基于数字计算，其信息传递（如梯度聚合、模型复制）效率极高。想象一下，让一亿个和你一样聪明的人同时读书、实时共享所有知识，那会是什么水平？其次，对方认为人脑有进化产生的“理性”能力，是当前模型不具备的。但我们现在不就在不断改进模型架构吗？这种“进化”凭什么就比自然选择低效？未来的模型为何不能具备类似能力？

反方：对方承认架构重要性，这恰恰说明不是“纯”数据驱动。架构本质上是知识的体现。除了效率制约，纯数据驱动学到的是统计规律，必然面临外推（泛化）能力不足的经典困境，难以产生真正的新知识。此外，无论是架构还是大脑的演化，除了连续过程，关键还有“突变”，这具有高度随机性和偶然性。这种“突变”能否由纯数据驱动催化？至少存疑。

正方：请问对方辩友，你日常吃饭、睡觉、看电视，是用相关性决策还是因果性决策？

反方：重要的事情我会尝试用因果性决策，随意的事情可能就是随机的。

反方：补充一点，人类理性决策的关键，在于能从直觉走向反直觉。

正方：当你说到直觉和反直觉时，也需要通过语言（数据）表达出来。我坚持第一个辩题的观点：生成即智能。在生成过程中，完全可以体现反直觉和因果推断。作为人，你难道不说话就能完成因果发现吗？你通过说话（数据）、记录（数据）、做实验（产生数据）来认识世界。这一切都是数据，都是纯数据驱动。

反方：“生成即智能”是个谬论。生成的内容可能完全违反基本认知，是错误或虚幻的。如果把生成过程本身当作智能，那是不严谨的。

正方：难道人生成的东西就全是对的吗？人也有错。AGI的标准是与普通人对齐，而不是永不犯错。人也有对错，生成的东西不一定全对，但这不影响其作为智能体的属性。

反方：生成的东西可以错，但类人的智能必须具备判断对错的依据。目前我们尚未发现大模型拥有这种可靠的依据。

正方：大模型有判断。为什么Sora生成的视频比别的模型更流畅、视角变换更一致？这背后必然存在某种判断机制。

反方：这种判断并非基于纯数据，其中包含了大量的架构设计和先验知识。

正方：“纯数据驱动”通常对应的是“符号驱动”或“理论驱动”，是经验主义与理性主义的对立，而不是说不需要模型架构。对方一直在用无关话题进行诡辩。

反方：任何问题都需要条件限定。如果我需要花费远超地球数据总量的资源或时间才能实现，那就没有现实意义。就像密码学中，需要几千万年才能破解的密码，等同于无解。因此，“纯”数据驱动不能解决AGI问题。架构优化、融入因果或物理原理，可以降低数据需求。数据很重要，但物理驱动和因果原理同样不可或缺。

正方：我们考虑的是理想情况下能否达到AGI。另外，Sora算不算纯数据驱动？它用了Transformer架构，但如果这个架构没有数据，参数如何确定？能做出Sora吗？人工智能历史上的几次低谷，正是因为没走数据驱动的路。今天我们之所以能坐在这里讨论，正是由于纯数据驱动的Sora取得了突破。计算效率问题，正是机器学习研究的核心之一（如泛化性、样本效率）。我们着眼未来，考虑的是可能性。人类通过观察数据（包括因果分析中的反事实数据、干预数据）获得知识。既然人类处理数据不如计算机，为何不让AI处理数据，人类去处理规则和定理呢？我们认为，纯数据驱动是实现人工智能，乃至实现有温度的人工智能的最终愿景所在。

来源:https://www.leiphone.com/category/ai/HPOjyojOqDMcq1JW.html

上一篇：微软AI新任CEO Mustafa Suleyman：DeepMind联创引领未来

下一篇：明略科技如何度过行业寒冬并实现逆势增长