人大思辨Sora是否理解物理世界运行规律
Sora发布至今,虽然仍未正式对外开放,但关于其技术细节与实际影响的讨论,早已在业界内外掀起波澜。这些讨论的背后,其实是对人工智能本质问题更深层次的叩问。
一方面,Sora的出现,无疑是对传统视觉生成思路的一次全面检验与校正。而另一方面,它所引发的关于多模态大模型与物理世界的关系、AGI(通用人工智能)的实现路径等思考,则更具启发性。
核心问题聚焦在两点:其一,Sora令人惊艳的生成效果——高分辨率下的主体一致性、流畅的多角度镜头变换——是否意味着它已经是一个“世界模型”?它能否真正理解物理世界?其二,OpenAI所坚信的“大力出奇迹”的Scaling Law(规模定律),其边界究竟在哪里?纯数据驱动的路线,能否最终通向AGI?
围绕这些议题,2024年3月20日,中国人民大学高瓴人工智能学院举办了一场关于Sora的思辩会。现场观点交锋激烈,碰撞出不少值得行业深思的火花。
文继荣院长在辩论会现场谈到,ChatGPT出现后,学院拿出了“All in大模型”的决心;而在Sora出现的2024年,全院也在探讨新的定位与前进方向。无论如何,最终都会回归学院的初心:创造智能而有温度的未来。
以下是辩论现场的精华实录,经过不改变原意的整理:
一、智能还是伪装:Sora到底懂不懂物理世界?
正方 黄文炳:
我们认为Sora懂物理世界。从已发布的视频来看,无论镜头如何旋转,画面所呈现的时间连续性、空间切换后的主体不变性、光影的反射与变化,都与物理世界的规律相符。如果不是基于对物理规律的理解,那这些一致性从何而来?
这里需要厘清一个概念:我们说的是懂“物理规律”,而非“物理学规律”。前者是大多数人在日常生活中能直接感受到的常识,比如球会从高处落下;后者则是物理学家通过实验和理论推导出的严格公式。今天的辩题是“懂物理世界”,指的正是我们普通人所感知的那个世界。
那么,什么叫“懂”?或者说,什么叫“学到”?有人认为Sora不懂物理公式,所以不算懂。但这或许是混淆了“AI的懂”与“人类的懂”。回顾图灵测试的核心:如果大多数人在随意提问下都无法区分对方是机器还是人,那么这台机器就具备了智能。从这个角度看,生成即智能。只要Sora生成的内容,让人通过常理无法分辨真伪,那它就是学到了,就是懂了。
反方 孙浩:
首先需要纠正对“物理世界”的定义。物理世界是由自然规律和物理学定律支配的客观宇宙,包括守恒、对称等基本原则。如果Sora真懂物理世界,它生成的视频就必须能准确模拟和刻画这些规律,但目前显然还达不到。
Sora的基本运行机制,是基于Diffusion Transformer对视频和文本数据进行压缩和学习其分布。然而,仅凭二维的视频和语言数据,想要完整描述三维的客观世界,存在天然的局限性。许多物理过程(如流体演化)需要特定的状态量才能准确描述,有限维的数据训练出的模型,其表达能力是不够的。生成内容的“逼真”与“真实”是两个概念。就像传统动画渲染技术也能做出逼真效果,但这不代表它理解了现实。
当然,我们并不否认Sora在创意设计和视觉表现上的巨大潜力。
正方 魏哲巍:
著名物理学家费曼有句名言:“What I cannot create, I don't understand.”(我不能创造的东西,我就不理解。)其逆否命题是:我能理解的,我就能创造。反过来看,能够创造(生成)是否就意味着理解?我们认为是的。
以水浪为例,其背后确实有一系列波动方程,但普通人理解水,需要先懂这些方程吗?显然不需要。人们通过观察,知道水会波动、物体会下落,这就构成了对物理世界的理解。这种理解与Sora通过海量视频数据学习到的“常识”,在本质上可能并无不同。牛顿发现万有引力,也绝非仅仅因为一个苹果砸中脑袋,而是基于前人大量的研究和自身的深刻思考。人类对物理的理解,本身也是一个从表象到抽象的过程。既然Sora能生成符合物理规律的内容,为何不能说它理解了呢?
反方 徐君:
Sora无法理解物理世界的一个关键原因在于,它试图从大量“非实验”的观察数据中发现规律。统计学中有个重要结论:“非干预,不因果”。如果不能对世界进行主动干预和实验,算法就难以发现真正的因果规律,而只能学到相关性。物理规律的核心特征之一,正是描述现象间的因果关系。因此,无论是Sora还是ChatGPT,如果仅以当前这种被动收集数据的方式训练,它们学到的大概率是“相关”而非“因果”,这是其根本局限。
再者,回顾人类发现物理规律的历程,科学突破往往需要“反直觉”的思考和假设。亚里士多德认为“物体不受力则静止”,这非常符合直觉,却错了上千年。直到伽利略、牛顿提出“物体不受力则保持匀速直线运动”这一反直觉的假设,现代物理学的大厦才得以建立。此外,物理学中许多至关重要的理想模型(如“黑体”),在现实世界中根本无法直接观测到,却对理论构建不可或缺。如果Sora仅依赖对现实世界的被动观察和直觉拟合,缺乏这种反直觉的推理和假设能力,它恐怕永远无法触及真正的物理规律。
正方 宋睿华:
对方辩友认为掌握物理规律需要反直觉思考和实验干预,这其实是以人类为中心的观点。物理世界客观存在,无论有没有人类,规律都在那里。不能说只有人类理解世界的方式才叫“理解”。
看看机器学习的核心范式:建立模型、定义参数、在数据上定义损失函数、进行优化。物理学家的工作范式何其相似:提出假设(公式)、引入参数、在理想实验条件下获取数据、计算理论与实验的偏差(损失)、然后优化理论模型。今天的神经网络,其函数逼近能力极其强大,学习过程本身就可被视为一种智能。为何人类提出的公式和实验才叫智能,机器的学习过程就不是呢?
对方提到的“特征工程”(feature engineering),在传统机器学习中很常见,即人工设计有用的特征。物理学家发现定律的过程,某种程度上不也是一种更为精巧的“特征工程”吗?他们找到了一条能很好解释现象的“特征”(公式),并用实验验证其普适性。这只是一种对物理世界更“狭隘”的刻画方式。
当然,Sora目前生成的内容中确实存在反物理的现象。但“懂物理世界”和“精确地懂物理世界”不能划等号。人类闭上眼睛想象两个海盗船在咖啡杯里航行,就能在脑海中精确模拟出每一帧符合物理的画面吗?恐怕也不能。
反方 许洪腾:
首先,能生成逼真视频与懂物理世界之间,没有必然联系。类比人类,建筑师能画出精妙的图纸,画家能创作写实的作品,但这不代表他们深刻理解背后的物理原理。原始人能用石头搭建住所、在岩壁上作画,那时他们对物理世界的理解几乎为零,但不妨碍他们进行创造。
其次,人类理解物理世界有一套严格的方法论:提出假设、进行观测、设计实验、验证反演。而Sora这类生成式模型的学习范式是数据驱动。给它数据,它最多算是“观测”到了现象,且这些数据并非在严格控制的实验环境下获得。在这种情况下说它理解物理世界,恐怕是一种超出我们当前认知的方式。
最后,Sora的强大,或许恰恰因为它“不懂”物理世界。基于统计相关性学习,它能够将有关联的事物进行天马行空的融合,生成如“龟壳像水晶球的乌龟”、“咖啡杯中战斗的海盗船”这类超现实画面。更早的图像生成模型也能生成“太空骑马”的场景。这些创作正因为它不受物理规律的严格束缚,才能基于统计相关性构筑自己独特的世界。因此,我们认为Sora并不真正理解物理世界。
自由PK环节
正方:有一种观点认为ChatGPT不懂语言。但OpenAI首席科学家伊利亚·苏茨克维曾表示,能够做下一个词预测(next token prediction),就是理解了语言。他举过一个例子:给大模型一篇悬疑小说,让它预测凶手是谁。如果它能准确预测,这算不算理解了小说?同理,Sora能生成符合物理规律的视频,为何不算理解物理世界?
反方:图灵测试更像一个工程测试:没通过,说明能力不足;但通过了,未必代表真懂。好比考试,没通过肯定没学懂,但通过了也可能是死记硬背。所以图灵测试的说服力有限。
正方:恰恰相反,我们认为Sora正在通过一种新的“电影测试”。测试两点:一是生成视频让人看,能否辨别真假;二是用视觉而非问答的方式,让人判断其是否智能。这或许是图灵测试在视觉领域的演进。
反方:什么叫懂物理世界?必须与真实世界一致。一个AI如果只训练过《哈利·波特》的数据,它也能预测下一帧魔法画面,但它懂的是魔法,不是物理。
正方:我方坚持,达到常人的理解水平即可,不需要懂物理公式。生活中,看到车来了,你会用牛顿第二定律计算躲避时间吗?不会,你靠的是经验和直觉预测。这种理解允许有误差。人类对物理的理解也是片面且不断进步的。我们不能穿越回去指责亚里士多德不懂物理,也不能断言当前的理解就是终极真理。物理规律本身,也是物理学家在有限观察下,通过统计、验证归纳出来的。随着观察深入,旧定律也可能被修正。因此,不能要求Sora一诞生就精通所有物理定律。
二、纯数据驱动路线能不能实现通用人工智能?
反方 许洪腾:
我理解的AGI是类人的人工智能,具有一定通用性。人类确实从数据中学习,这证明从数据中获取信息是可行的。但我反对纯数据驱动路线,主要因其效率低下,从算力和数据角度看可能不可行。
人类拥有经过亿万年演化而来的特殊大脑结构,这是我们的“初始设计”。这种演化效率极低,经历了无数代迭代和数据接收。我不认为这是实现AGI的合理技术路线。此外,我们已面临能源和数据瓶颈。按照OpenAI的数据消耗趋势,很快训练视频数据的速度将超过人类生产数据的速度。届时可能需要Sora自己生成数据来训练自己,那还是传统意义上的“纯数据驱动”吗?它还能自我进化吗?这些都是疑问。
正方 毛佳昕:
首先,这个议题与第一个不同,它是对未来的预测。我们认为数据驱动路线成功的概率很大。
看历史数据:AI发展早期,感知任务被认为很难,但足够的数据解决了它;后来语言、认知任务被认为很难,ChatGPT的出现又解决了。历史趋势表明,数据驱动是一条有效的路径。
再看类比数据:人类本身就是一种通用智能。人类学习物理,不也是通过看书(数据)、做题(数据)吗?这与大模型通过数据学习物理题的模式本质相同。
关于效率,杰弗里·辛顿(Hinton)最近的观点有所转变。他承认人脑在计算能耗上效率极高,但其最大缺陷是通讯效率差——想法难以直接复制传递。而基于数字计算机的大模型,其模型间信息传递(如梯度同步、参数复制)的效率远超人脑。可以想象,大模型相当于让成千上万个和你一样聪明的人同时读书、交流,其智能积累速度是惊人的。
最后,这个辩题中“数据驱动”的反面,并非物理定律(物理知识对大模型也是数据),而是“理论驱动”(theory driven),即基于对人类认知方式的理论来设计AI。辛顿过去研究生物可塑性(biological plausible)的神经网络,就属于这一路径,但他最近的转变值得深思。
反方 沈蔚然:
首先,我们对AGI的期待很高,希望它在大多数任务上超越人类。纯数据驱动能否实现这一目标?对方说人类通过看书学习,但书上的理论是前人总结的“结果”,而非原始“数据”。数据应是实验得到的观测结果。
关键在于,当前的数据驱动方式,难以将数据总结成简洁、可理解的理论,并在此基础上进行推导。要实现超越人类的AGI,这可能是绕不开的坎。数学上,用数据拟合某些复杂函数,理论上需要无穷多的数据,效率极低。而用数学语言描述则简洁得多。要实现广泛的通用性,纯数据驱动可能难以跨越某些函数类别的鸿沟。
正方 林衍凯:
对方辩友似乎在切换辩题,将“能否实现”偷换为“能否在有限资源下高效实现”,或将AGI定义为“必须超越人类”。
从技术角度看,大模型并非简单的记忆组合(memory combination)。训练过程本质上是数据压缩和寻找规律的过程,模型为了优化目标函数,会自发地寻找能更好拟合数据的规律,并涌现出新的能力。这指向了类似人类思考的演化。
至于数据有限的问题,真实世界的数据本质上是无限的。大模型不仅可以利用现有的文本、视频数据,未来还可以通过与物理世界互动(如机器人)自主探索,获取无限的新数据。在此基础上学习更多知识和规律是可行的。
反方 孙浩:
“实现”一词本身就包含了现实可行性。如果一个路径理论上可行但资源上做不到,那答案就是“不能”。
世界是复杂的,但我们认知世界的方式可以很简洁。不同科学领域用自己的一套语言(如微分方程)来描述世界,这套语言基于少量数据、人的假设和推理形成,却具有很强的通用性。数据是关键要素,但不是唯一要素。如果将其视为实现AGI的唯一要素,在定义和理解上就存在偏差。
正方 黄文炳:
辩题问的是“能不能”,而不是“在数据有限的条件下能不能”。只要在足够数据的理想前提下,就有可能。
关于AGI的定义,它指的是机器处理大多数任务的通用能力(AGI),而非无所不能的“万能智能”(AUI)。数据驱动可能无法实现解决所有科学难题的智能,但这不影响它实现日常生活中所需的通用智能。
我们承认,在物理等特定领域,由于数据获取难、存在严格假设(如对称性),纯数据驱动可能行不通。但这与实现通用人工智能的辩题并不矛盾。
自由PK环节
反方:我的答案是不能。假设有两个不同版本的Sora,对世界的理解不同,哪个是对的?可能一个对,也可能都错。这说明其认知很不稳定。难道模型版本更新,我们对世界的认识也要跟着刷新?这不合理。此外,认识世界不仅需要数据(经验),还需要理性的处理能力,两者缺一不可。目前Sora仅接触文本、图像、视频数据,其他领域数据(如嗅觉、触觉)完全缺失,从数据源上就被限制了。其模型架构(Diffusion + Transformer)也难以产生真正的理性分析和想象能力。因此,无论从经验还是理性角度看,AGI都被“锁死”了。
正方:关于效率,Hinton观点的转变正说明问题。人脑高效但通讯差,而大模型基于数字计算,其信息传递(如梯度聚合、模型复制)效率极高。想象一下,让一亿个和你一样聪明的人同时读书、实时共享所有知识,那会是什么水平?其次,对方认为人脑有进化产生的“理性”能力,是当前模型不具备的。但我们现在不就在不断改进模型架构吗?这种“进化”凭什么就比自然选择低效?未来的模型为何不能具备类似能力?
反方:对方承认架构重要性,这恰恰说明不是“纯”数据驱动。架构本质上是知识的体现。除了效率制约,纯数据驱动学到的是统计规律,必然面临外推(泛化)能力不足的经典困境,难以产生真正的新知识。此外,无论是架构还是大脑的演化,除了连续过程,关键还有“突变”,这具有高度随机性和偶然性。这种“突变”能否由纯数据驱动催化?至少存疑。
正方:请问对方辩友,你日常吃饭、睡觉、看电视,是用相关性决策还是因果性决策?
反方:重要的事情我会尝试用因果性决策,随意的事情可能就是随机的。
反方:补充一点,人类理性决策的关键,在于能从直觉走向反直觉。
正方:当你说到直觉和反直觉时,也需要通过语言(数据)表达出来。我坚持第一个辩题的观点:生成即智能。在生成过程中,完全可以体现反直觉和因果推断。作为人,你难道不说话就能完成因果发现吗?你通过说话(数据)、记录(数据)、做实验(产生数据)来认识世界。这一切都是数据,都是纯数据驱动。
反方:“生成即智能”是个谬论。生成的内容可能完全违反基本认知,是错误或虚幻的。如果把生成过程本身当作智能,那是不严谨的。
正方:难道人生成的东西就全是对的吗?人也有错。AGI的标准是与普通人对齐,而不是永不犯错。人也有对错,生成的东西不一定全对,但这不影响其作为智能体的属性。
反方:生成的东西可以错,但类人的智能必须具备判断对错的依据。目前我们尚未发现大模型拥有这种可靠的依据。
正方:大模型有判断。为什么Sora生成的视频比别的模型更流畅、视角变换更一致?这背后必然存在某种判断机制。
反方:这种判断并非基于纯数据,其中包含了大量的架构设计和先验知识。
正方:“纯数据驱动”通常对应的是“符号驱动”或“理论驱动”,是经验主义与理性主义的对立,而不是说不需要模型架构。对方一直在用无关话题进行诡辩。
反方:任何问题都需要条件限定。如果我需要花费远超地球数据总量的资源或时间才能实现,那就没有现实意义。就像密码学中,需要几千万年才能破解的密码,等同于无解。因此,“纯”数据驱动不能解决AGI问题。架构优化、融入因果或物理原理,可以降低数据需求。数据很重要,但物理驱动和因果原理同样不可或缺。
正方:我们考虑的是理想情况下能否达到AGI。另外,Sora算不算纯数据驱动?它用了Transformer架构,但如果这个架构没有数据,参数如何确定?能做出Sora吗?人工智能历史上的几次低谷,正是因为没走数据驱动的路。今天我们之所以能坐在这里讨论,正是由于纯数据驱动的Sora取得了突破。计算效率问题,正是机器学习研究的核心之一(如泛化性、样本效率)。我们着眼未来,考虑的是可能性。人类通过观察数据(包括因果分析中的反事实数据、干预数据)获得知识。既然人类处理数据不如计算机,为何不让AI处理数据,人类去处理规则和定理呢?我们认为,纯数据驱动是实现人工智能,乃至实现有温度的人工智能的最终愿景所在。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
AI行业动态:百图生科智子引擎获投Anthropic发布Claude3.5
过去一周,AI领域资本与创新活跃。百图生科获战略投资,智子引擎等初创公司获融资。国内方面,B站开源Index-1 9B模型,月之暗面优化长文本处理,蔚来整合团队探索智能驾驶。国际层面,Anthropic发布Claude3 5Sonnet并免费开放,MIT与哈佛推出病理诊断AI,斯坦福发布开源人形机器人。同时,OpenAI前科学家Ilya创立专注AI安全的公司
智源研究院1500天坚持原始创新与大模型深度对话
面对AI技术差距,智源研究院坚持原始创新,战略转向覆盖多领域的“大模型全家桶”。在主流赛道推出低碳万亿模型Tele-FLM-1T,并研发原生多模态Emu3;在具身智能等前沿“无人区”达到世界水平,同时以FlagOS开源体系支撑生态发展,致力于攻克关键痛点。
魔形智能创始人徐凌杰获国际GPU高管加盟
前壁仞科技总裁徐凌杰于2024年6月创立上海魔形智能,专注大模型基础设施领域。公司定位为提供软硬件一体优化平台,旨在降低大模型使用成本,注册资本达1000万美元。徐凌杰拥有深厚的技术与商业背景,曾任职于阿里云及多家国际芯片企业。此外,一位国际头部GPU厂商的中国区高管也已加盟。
五大AI语言学习工具推荐:高效掌握外语的未来趋势
人工智能正深度变革语言学习,提供个性化高效工具。Trancy通过双语字幕和沉浸翻译将视频网页转为学习材料;多邻国以游戏化课程让学习趣味化;Langua凭借高级对话练习和实时反馈提升口语听力;Memrise利用间隔重复法巩固词汇记忆;Busuu则连接全球社区满足定制化需求。这些工具共同助力用户跨越语言障。
五款实用AI知识搜索引擎推荐智能搜索新体验
AI知识搜索引擎借助前沿技术,提升查询准确性与用户体验,能深入理解意图并提供精准答案。文中介绍了五款领先产品:PerplexityAI以对话式答案见长;DevvAI专注开发者需求;秘塔科技推出大众搜索与法律专用工具;ThinkAny利用RAG技术生成专业回答;KomoAI强调交互探索。它们通过智能模型与友好界面,让信息获取更直接高效。
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

