万字长文解析世界模型差异 RL与CV领域对比实录
今天,我们深入探讨AI领域的一个核心议题:世界模型。这一概念不仅是计算机视觉与强化学习的交汇点,更是迈向通用人工智能(AGI)的关键桥梁。简而言之,世界模型旨在为AI智能体构建一个类似人类的“内在模拟器”,使其能够理解现实世界的运作逻辑与因果关系,从而做出更精准的决策。这对于自动驾驶、机器人(具身智能)等前沿技术的突破具有决定性意义。
近期,一场题为“世界模型——通向通用智能的关键拼图”的线上学术圆桌成功举办,汇聚了学界与工业界的多位顶尖研究者。本次讨论由清华大学智能产业研究院(AIR)助理教授赵昊主持,与会嘉宾包括宁波东方理工大学助理教授金鑫、浙江大学特聘研究员廖依伊、布里斯托大学助理教授杨梦月以及伯克利人工智能实验室博士后研究员郑文钊。
对话从世界模型的定义与范畴切入,逐步对比了其与强化学习的异同,分析了通用视频生成模型的演进路径,并最终聚焦于自动驾驶和具身智能两大最具前景的落地场景,深入剖析了构建相应世界模型的核心挑战与未来方向。在具身智能领域,嘉宾们分享了极具洞见的观点:
郑文钊指出,具身智能与自动驾驶类似,都对三维空间的精度和物理规律的遵循有极高要求。未来的发展需要融合三维重建与生成技术,并更精细地建模因果关系。由于高质量交互数据稀缺,纯粹的数据驱动路径难以训练出符合物理规律的世界模型,因此,探索如何将先验物理知识“注入”数据驱动模型,将成为关键趋势。
金鑫同样强调了物理真实性对于具身智能的至关重要性。他提出,研究不应局限于数据驱动,还应汲取传统仿真与图形学领域的经验,将基于规则的物理建模方法与数据驱动的生成模型相结合,以期构建出既物理准确又视觉逼真的世界模型。
杨梦月则提出了另一条思路:在具身场景中,可通过智能体的主动探索来归纳物理规律,并将其整合为因果模型,进而用于反事实推理与预测。廖依伊在赞同前述观点的同时,提出了一个根本性的技术路线选择问题:是否必须进行显式的三维建模?在数据充足的情况下,直接在二维表征层面学习交互可能更为高效,尤其是在处理衣物折叠等非刚性物体任务时,三维建模的复杂度会急剧上升。如何实现二维与三维表征的优势互补,仍是一个待解的难题。
以下是本次圆桌讨论的精华内容梳理:
一、如何定义世界模型?
赵昊:大家好,欢迎参与本次研讨会。我主要研究方向是计算机视觉、图形学与机器人的交叉领域。世界模型是串联这些方向的核心技术,我对其发展始终抱有坚定信念。
首先,我们界定一下世界模型的范畴。最狭义层面,指自动驾驶中的世界模型;稍加拓展,是具身智能的世界模型;第三层可涵盖通用视频或传感器生成模型;而最广义的层面,则是服务于通用智能体的世界模型。考虑到在座多位专家深耕计算机视觉,我们的讨论可以从自动驾驶切入,再向外延伸,因为不同领域背后的科学原理本质是相通的。
金鑫:谢谢赵老师。我的研究聚焦于空间智能与世界模型。我认为,几位老师讨论的核心,都可归结为“表征学习”——我们首先要理解世界,找到合适的表征形式(可能是三维的,也可能不是),再基于此构建蕴含物理规律的世界模型。这条路径的核心是“先理解,再构建”。我们团队近期关注的“解耦表征学习”,旨在将特征空间中的关键因素(如物体尺寸、颜色、材质)分离并保持正交,这不仅能提升AI系统的可解释性,也能为后续的生成、规划等下游任务提供便利。
廖依伊:大家好。我们近期研发的HUGSIM是一款基于3D高斯散射的仿真器,能够与自动驾驶算法进行交互,这属于狭义世界模型的研究范畴。我非常期待今天能从狭义到广义,探讨世界模型的演进路径。
杨梦月:我的研究更侧重于因果理解与表征学习。当前大模型的训练本质是对海量数据的模仿,可能只学到了数据表面的关联,容易产生“幻觉”。而表征学习更注重可解释性,我们希望智能体真正理解世界背后的构成要素及其相互关系。一旦理解了这些,智能体的决策就能基于事件背后的逻辑,而非仅仅是像素级的预测。
郑文钊:我一直致力于基于世界模型的自动驾驶研究。我认为,若要迈向通用智能,世界模型的定义必须更加泛化。它在某种程度上是比语言模型更具泛化能力的认知框架。语言是人类定义好的符号系统,而世界模型需要寻找比语言更完备、更细致的世界表征方式,例如三维空间中的几何与物理属性。表征的选择,是构建世界模型的首要关键。
赵昊:杨老师提到当前表征可能缺乏因果关系,这确实是一个值得深究的方向。那么,完整的三维或四维(时空)世界表示,是否是构建世界模型的必要条件呢?
杨梦月:3D或4D表示为我们提供了新的视角,但它们与世界模型之间的紧密联系仍需探索。严格意义上的世界模型,其逻辑应是“当前状态 + 智能体动作”映射到“下一状态”。目前的3D、4D生成技术虽然能重建世界外观,但尚未充分融入动作因素,因此与严格定义仍有差距。构建交互层面的建模,是不可或缺的一环。
赵昊:我完全同意。我们CV领域的研究者有时过于关注渲染质量,而忽视了交互输入。不过,物理模型永远不可能完美,从宏观意义上看,或许完全数据驱动的表征学习反而是更普适的路径。郑老师,你的一些研究工作仅在占用栅格(Occupancy)层面进行,不进行真实感渲染,对此你怎么看?
郑文钊:狭义的世界模型是对环境的建模,核心是接收动作并输出环境反馈。但若要迈向通用智能,定义必须更泛化。世界模型在某种程度上是更具泛化性的认知模型,其核心在于表征的选择。像JEPA、DINO等模型在语义描述上表现出色,但一个理想的世界模型表征,既要能进行抽象语义描述,也要具备三维几何建模能力,因为我们所处的世界本质上是三维的。
廖依伊:我赞成郑老师的观点。不同世界模型的核心区别,在于如何定义状态“x”。以视频生成为例,我们通常在潜空间中进行操作,但潜空间的设计目标未必能充分学习到高级语义信息。这就是JEPA等工作的价值——它们通过自监督学习获取更具语义意义的特征。一个值得探讨的问题是:语义更丰富的表征是否更合理?直观上看,如果潜空间的特征能更好解耦并蕴含丰富语义,后续的世界模型学习会更高效。
赵昊:廖老师说得很好。尽管潜在向量没有显式的3D信息,但作为一种高度抽象的表征,或许能找到其与物理属性的内在关联。关于是否引入3D,核心争议在于“是否让模型更易学习与泛化”。金老师,你对世界模型表征学习的思路怎么看?
金鑫:物理学家理查德·费曼曾言:“我无法创造我不理解的东西。”因此,找到合适的表征是第一步。我们团队研究“解耦表征学习”,就是希望将特征层面中的各种因素分离,找到关键信息。深度学习的本质是一个熵减的过程,即去除冗余,保留核心。构建世界模型也是如此,需要找到这些关键因素和表征,它们可能无法完全理想化解耦,正如杨老师所说,其间可能存在复杂的关联和因果关系。
二、RL与CV的世界模型有何不同?
赵昊:接下来我们聊聊,强化学习(RL)界和计算机视觉(CV)界所理解的世界模型,究竟有何本质不同?动作因素可能是主要差异点。
金鑫:我的理解是,强化学习中基于模型的“模型”,与CV领域用于自动驾驶的“模拟器”,核心功能都是通过模拟环境来让智能体进行交互训练。我们CV领域常说的“模拟器”,本质上就是对环境的动态模拟,这和赵老师强调的“动作”输入是呼应的。
杨梦月:我认为核心区别在于服务对象不同。CV界的核心是建模世界本身,关注如何刻画世界的形态与外观;而RL界的核心是智能体,建模世界的最终目的是让智能体掌握世界知识,从而优化其决策策略。RL领域有一个较新的观点叫“开放性”,实质是让智能体“自我提升”。当数据有限时,智能体需要主动探索,例如通过自问自答的方式学习,这个过程本身就是对世界模型的构建,但最终目标是提升智能体的决策与泛化能力。
赵昊:所以,RL研究者即使没有视觉图像,将“智能体自己给自己出题”的推理过程也称为世界模型?
杨梦月:最广义的世界模型,可以建模任何规则,不限于物理规则。世界模型的核心目标是让智能体具备理解特定环境或任务规则的能力。因此,对于不同的环境,可能都需要发展其对应的世界模型建模方法。
廖依伊:我的理解是,一方面,CV界更关注与图像像素平面相关的状态变量;而RL界的状态变量可以是任意形式的抽象状态。另一方面,RL在涉及世界模型时,通常不仅要预测下一状态,还要学习奖励函数。但目前CV界的视频生成,更关注预测下一时刻的视觉呈现“长什么样子”,却很少考虑奖励机制。不过,像LeCun团队的“Navigation World Model”研究,就能通过生成图像与目标图像的对比来构造奖励,进而服务于智能体导航。
赵昊:廖老师这点非常关键:我们现在构建的世界模型,大部分确实没有考虑奖励。这是一个极具潜力的研究方向。
郑文钊:我简单总结一下。RL界的世界模型更像一个判别式模型,当智能体执行动作后,它输出一个奖励值以评判动作好坏。而CV界的世界模型更像生成式模型,它不直接评判行为,而是预测这个行为会导致世界呈现出什么状态。第二个区别是,RL界的世界模型更多是一种局部模型,必须依赖智能体与环境交互来获取反馈;而CV界的世界模型更接近独立运行的全局模型。第三个区别是,RL界的世界模型更多是反馈机制,不涉及对动作本身的建模;而CV界的世界模型可以接受并响应动作指令。总的来说,CV界的世界模型更通用,涵盖世界与动作的联合建模;RL界的则更侧重服务于策略优化的反馈机制。
赵昊:我总结一下,当前CV界的世界模型虽已引入动作因素,但尚未产生变革性影响,关键就在于缺乏奖励机制。只要明确定义好奖励函数,视频生成模型就能很快在自动驾驶、具身智能等领域发挥巨大作用。
三、通用视频生成
赵昊:我们进入更具体的环节。第一个问题:通用视频生成模型,何时能演变为真正的世界模型?它的发展速度确实超乎想象。
廖依伊:关于如何变成真正的世界模型,答案相对清晰,还是要回到我们之前的共识:需要具备动作条件和因果性。当前最先进的视频生成方法大多采用“三维时空注意力机制”,但真正的世界模型需要满足“当前状态+动作→下一状态”的因果逻辑。近期已有研究尝试在注意力机制中限制时序依赖来强化因果关系,这是合理的探索。而动作因素的引入仍有很多开放性问题,比如世界中其他动态物体的动作该如何建模?
赵昊:我完全同意。动作条件下的通用视频生成模型若能进一步优化,我们就离真正的世界模型更近一步。
郑文钊:我比较同意廖老师的观点。通用视频生成模型与世界模型目前最大的差距,在于对动作的反馈机制。具体包括:动作如何定义?模型能否对动作做出准确反馈?反馈与动作之间是否存在合理的因果关系?
赵昊:我分享一个观点。我认为当前通用视频模型要发展为真正的世界模型,还缺少强大的编辑能力、文本对齐能力和指令遵循能力。今年GPT-4o等模型展现的编辑能力让人震撼。如果通用视频生成模型能通过自然语言指令实现高精度、可控的内容编辑,那么无论其内部原理如何,它必然已经学到了关于世界的某些深层知识。所以,视频编辑能力的突破也至关重要。
杨梦月:因果关系是否为必需,需根据具体应用场景判断。如果要用模型来训练智能体,使其在真实世界做出可靠决策,就需要模型贴近真实,遵循因果关系;但从视频生成的艺术创作角度,可能无需严格遵循物理规律。关于动态建模,世界模型的定义本就非常广义。多智能体(Multi-Agent)系统就是完全动态的,这又回到最初的问题:如何衡量动态中的不变性?可能需要引入奖励模型来分析。
赵昊:杨老师的观点很有意思。CV研究者常认为能真实重建物理世界的才是好的世界模型,但大家使用Sora时,却常让它生成不符合真实物理的奇幻内容。或许生成绝对真实内容并非唯一评价标准。
金鑫:几位老师从物理真实性、可编辑性等方面做了很好的分享。杨老师的观点让我想到“反事实生成”能力。真正的世界模型若能生成全新场景或反事实结果,可能更接近通用智能,甚至涌现出创造性能力。若能学到甚至超越人类总结的物理规则,会非常令人兴奋。
赵昊:金老师的观点很有启发性。但生成不符合物理规律的内容,是否真的代表模型具备了反事实推理能力?我觉得不一定,也可能是模型过拟合到了训练集中的视觉特效素材上。
廖依伊:我想提个问题。若我们的最终目标是训练通用智能体,那么这些视觉特效数据对智能体而言是干扰噪声,还是有益的多样性数据呢?
杨梦月:今年有一个令我印象深刻的研究流派,叫做“开放性”。他们认为,在数据有限的情况下,要提升智能体决策能力,需要不断为其生成新任务和新环境。我曾与机器人团队交流,他们涉足视频生成,就是希望用生成的结果来训练机器人智能体,因为真实环境探索代价太大。通过视频生成辅助生成训练数据,让智能体先获得一些先验和反事实知识,能极大提升样本效率。
赵昊:“开放性”,这个词很好。关于视觉特效数据是否“有毒”,这很像NLP领域曾面临的问题。如何让通用视频生成模型在垂直领域做好对齐与净化,是迟早要面对的技术挑战。
四、自动驾驶的世界模型发展到哪儿了?
赵昊:回到我们的专业领域,聊聊自动驾驶。我们探索了这么多年,什么时候才能实现L4级自动驾驶?
金鑫:在我看来,学术界的特点是把核心技术做到60%或70%的成熟度,搭建好方法原型后,剩下的“最后一公里”工程化与规模化会交由工业界完成。自动驾驶问题已相对清晰,接近落地阶段。从自动驾驶转向更具挑战的具身智能,要解决的问题更多、更复杂,这正是学术界需要重点突破的方向。
赵昊:金老师认为自动驾驶已发展到一定阶段,剩余工作主要由工业界大规模落地。我基本赞同,但觉得还存在一些关键技术问题,比如感知分辨率、预测时长和视频生成的连贯性。我认为,今年还剩一个关键问题:“在自动驾驶世界模型中如何定义奖励函数”。一旦奖励建模完成,方法论就能形成完整闭环。
廖依伊:我的观点略有不同。金老师提到自动驾驶已有很多落地算法,我认同。但目前还没有特别有说服力的工作,能证明自动驾驶世界模型在训练闭环中真正发挥了关键作用。现在CV界在世界模型研究中,关注的多是图像生成或渲染质量,而没有回到智能体训练本身。真正将世界模型纳入训练闭环,用它支持智能体训练并证明其有效性的工作,目前还较为缺乏。
金鑫:我同意廖老师的观点。刚才说的是自动驾驶整体算法层面。而针对自动驾驶世界模型,我认为它才刚起步。两年前,大家可能还在想着收集海量数据、进行自监督训练,但慢慢发现数据无法穷尽所有边缘案例(Corner Cases)。于是大家才转向借助闭环模拟器(即世界模型)来辅助训练,这个思路转变其实才刚刚开始。
赵昊:总结廖老师的观点,下一步我们要走向大规模基于世界模型的智能体训练,我完全同意。这其中最核心的问题就是奖励如何定义与建模。
郑文钊:我整体认同廖老师的观点。自动驾驶对世界模型的精度要求极高,停车时可能需要厘米级精度,“看起来对”和“实际能用”是两回事。因此,关键问题是:如何实现对未来的精准预测,以及对动作的精准响应。从趋势看,三维几何与二维视觉结合的路线可能是未来方向。第二点是泛化能力的提升,我们需要模型能泛化到数据未覆盖但符合物理规律的场景。第三点是如何用好世界模型,我认为世界模型在自动驾驶中的应用不应仅作为训练的奖励机制,更应转化为一种预测与规划范式。
赵昊:郑老师提到,当前自动驾驶世界模型的基准性能还比较低。这就引出一个问题:随着视觉基础模型的发展,自动驾驶数据集上的指标却难以上涨,大家觉得有什么新的突破机会?
郑文钊:有时可视化结果看起来不错,但量化指标只有20分,这正反映了自动驾驶对精准度的严苛标准。目前在基础层面,自动驾驶还缺乏成熟的、面向动态场景的感知基础模型。未来若能出现专为自动驾驶设计的感知基础模型,性能应该会有较大飞跃。
赵昊:长期来看,迟早会出现自动驾驶垂类的动态基础模型。自动驾驶场景是高度动态的,必然需要适配动态场景的模型。如果能有这类垂类的动态基础模型,当前各项任务的指标都可能大幅提升。
杨梦月:从因果推理的角度看,我们希望智能体具备反事实想象能力,那它就必须理解场景的因果结构。此外,再好的世界模型也无法捕捉现实世界的所有情况。因此,提升模型性能的一个重要方向是:不能仅依赖离线训练数据进行训练,还需要通过两方面发力——一方面要思考如何在真实系统中进行安全干预并获取真实反馈;另一方面,当决策执行后,将收到的真实反馈用于在线更新和优化当前的世界模型。
五、具身智能的世界模型应该如何构建?
赵昊:我们讨论最后一个话题:具身智能的世界模型应该如何构建。目前这个领域尚未形成明确的范式,需要一个能证明其巨大价值的“杀手级应用”来推动发展。
郑文钊:我觉得具身智能的问题与自动驾驶有相似之处,比如都对三维精度有极高要求,甚至更严格。第二,物理规律在具身智能中扮演更核心的角色。未来具身智能世界模型的发展,我认为有两个方向:一是实现重建与生成的深度融合,提升三维建模的精度与效率;二是更精准地判断与建模因果性。由于高质量交互数据稀缺,纯数据驱动很难训练出符合物理规律的世界模型,因此需要探索如何将物理先验知识“注入”数据驱动模型,这可能是未来的关键趋势。
金鑫:我跟郑老师观点相似。物理真实性对具身智能的世界模型反而更重要。我们的探索方向是:不仅依赖数据驱动,还借鉴传统仿真领域的经验,结合图形学中基于规则的物理建模方法与数据驱动的生成模型,希望让模型既能保证物理真实性,又能实现外观逼真。
杨梦月:我的想法是,在具身场景中,能否通过某种机制或智能体自身的主动探索来捕捉物理规律,将其整合成因果模型,再利用该模型进行反事实预测或推理。
赵昊:这个观点很有意思。今年存在“算法Agent化”的趋势。世界模型未必是客观被动的、被物理规则固化的存在,它能否成为主动演变的“环境Agent”,在与数据的持续互动中自我优化?这是今年值得探索的方向。
廖依伊:我总体赞成金老师和郑老师的观点。从自动驾驶到通用具身智能,两者差异显著。自动驾驶中,智能体与环境的交互模式相对固定,场景也相对局限。但具身智能中,动作维度与场景复杂度大幅提升。我一直在纠结技术路线选择:是走2D路线,还是3D路线?核心问题在于:是否必须进行显式的三维重建与建模?在2D表征层面能否学好复杂的物理交互?若有足够多样化的训练数据,2D学习交互可能更简单高效。如何做好2D与3D表征的结合,仍是一个待解的难题。
赵昊:完全同意。如果3D、4D仿真过于复杂且成本高昂,不进行显式建模或许是一种更务实的选择。
金鑫:还要考虑实际部署时的训练复杂度和推理效率——机械臂等硬件的算力有限,过于复杂的建模会带来巨大挑战。
赵昊:感谢四位老师的精彩分享。希望今天的讨论能给大家带来启发。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
零一万物迎来三位新高管 李开复详解一把手工程
零一万物近期完成核心高管团队调整。前百度高管沈鹏飞加盟,统筹国内ToB与ToG业务拓展。同时擢升赵斌强、宁宁为副总裁,分别负责AI模型研发与国际业务咨询。此次布局旨在协同市场、技术与国际三大方向,全面升级企业级大模型解决方案能力,以支撑其“AllintoB”与“一把手工程”战略的落地推进。
MiniMax高级研究总监钟怡然半年前离职独家消息
MiniMax高级研究总监钟怡然半年前离职。他曾主导关键项目MiniMax-01的研发,其创新的LightningAttention架构显著提升了模型的长上下文处理效率。公司对其过往贡献表示感谢并送上祝福。
爱诗科技B+轮融资1亿元 ARR突破4000万美元
爱诗科技完成B+轮1亿元融资,年度经常性收入突破4000万美元。旗下PixVerse平台全球用户超一亿,月活用户达1600万,商业化后收入年增超十倍。其自研视频大模型迭代迅速,通过Agent助手降低创作门槛,并借助社交模板驱动全球增长。平台API生态发展强劲,单月调用量翻倍,推动AI视频从娱乐向产业应用升级。
太初元碁联合产业链伙伴推出AI落地北京方案
在2025人工智能计算大会上,30余家企业联合发布“北京方案”,旨在通过芯片厂商、大模型公司及行业应用方的全链路协作,构建开放标准,整合国产芯片与主流大模型,夯实自主技术底座。太初元碁展示了高性能计算与AI融合的解决方案,并以案例说明AI正从认知引擎转向智能行动主体。
小模型崛起成为AI新战场
AI行业风向正从小模型转向。腾讯、阿里和OpenAI相继推出小参数模型,显示小模型重回舞台中心。如今的小模型专为终端部署设计,称为端侧智能,能在手机等设备本地运行,应用于故障预警、智能座舱等场景。凭借低算力需求和本地化优势,小模型正开辟大模型之外的新战场。
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

