00后清华博士联合英伟达发布Gamma-World多玩家共享世界模型
NVIDIA联合清华等机构发布Gamma-World,从位置编码与注意力机制底层入手,解决多智能体世界模型中身份对称性、跨视角一致性和扩展效率问题。SimplexEncoding实现双人训练四人泛化,SparseHubAttention将计算量从平方降为线性,在Minecraft和机器人场景中FVD降低超40%,达24FPS实时推理。
01 单机世界模型时代正走向终结,多智能体交互成新焦点
过去两年间,主流视频世界模型主要聚焦于单智能体预测任务:依据给定的动作序列,模型生成单一视角下的未来帧。Sora、Cosmos、Genie 3 等系列工作持续提升画面质量、时序一致性和交互响应能力,证明了AI能够在某种程度上模拟出可观看、可控制的虚拟世界。
然而,现实世界并非由单一主体构成。
在工厂产线上,一台机械臂的运动轨迹会限制另一台机械臂的作业空间;自动驾驶场景中,一辆车的变道行为会影响周边车辆的路径规划。在多人游戏里,一名玩家的走位会改变队友与对手的决策空间。这些场景的共同特性在于因果耦合:一个智能体的行为改变了共享环境的状态,其他所有智能体必须感知这一变化并相应调整行动。
业界已开始涉足这一复杂领域,并探索出多条富有启发性的技术路线。
Solaris 在Minecraft中采集了1264万帧多人同步数据,训练出能够同步生成双人视频的世界模型。该工作证明了多视角同步生成的可行性,但扩展到三人及以上场景时,注意力机制的计算复杂度成为绕不开的瓶颈。
Odyssey 旗下的 Agora-1 实现了四个玩家共享实时生成的GoldenEye对战世界。其解法是将模拟与渲染解耦,依赖显式游戏引擎状态作为中间表示。这本质上是退化成了一个神经渲染器,绕过了“从像素中学习物理规律”这一世界模型的核心挑战。
总体来看,前沿探索为多智能体世界模型奠定了坚实基础。在此之上,如何进一步实现对称且可扩展的身份编码、高效且不依赖外部状态的跨智能体通信,以及端到端泛化能力,成为下一阶段的核心课题。
5月27日,NVIDIA、清华大学、多伦多大学和Vector Institute联合发布了Gamma-World(γ-World)。该方法并未采用多路画面拼接,也未依赖显式游戏状态,而是从位置编码和注意力机制这两个底层组件出发,直接应对多智能体世界模型中的核心约束:如何表示身份而不破坏对称性,如何共享状态并保持一致性,以及如何高效通信而不受算力限制。
论文发布后,Gamma-World迅速登上Hugging Face Papers当日榜单首位。对于一篇偏底层架构的世界模型论文而言,这一热度信号表明,多智能体世界模型正从小众技术问题走向更主流的AI研究视野。
02 第一作者刘芳甫:从空间智能到世界模型,持续不断的研究主线

Gamma-World的第一作者是来自清华大学的刘芳甫。他于2023年从清华大学电子系本科毕业后直博,研究方向涵盖空间智能与世界模型。刘芳甫在极短时间内构建了令人瞩目的学术履历:在TPAMI、CVPR、ECCV、NeurIPS、ICCV、ICLR、KDD等计算机视觉与人工智能顶级会议和期刊上发表了近三十余篇论文,其项目GitHub Star累计超过一万,并担任CVPR、NeurIPS、ICML、ICLR、ICCV、SIGGRAPH等顶级会议的审稿人。
Gamma-World之所以选择从底层重构多智能体的交互机制,是刘芳甫过去几年研究主线的自然延续。梳理他近年来在各大顶会发表的数十篇论文,可以清晰看到一条逻辑递进脉络:世界模型不应只停留在“生成画面”层面,而需要理解Agent、动作与环境的相互关系,从而在交互中实现同步演化。他早期的CASPER探索了因果发现,随后的Unique3D、Physics3D和ReconX等工作系统性完成了从3D物体静态生成到4D物理动态场景生成的跨越。到近期的Video-T1、Spatial-MLLM和Spatial-TTT,研究重心已明确转向空间推理与模型泛化。这种对物理约束和动态交互的长期关注,为Gamma-World解决多智能体状态一致性问题提供了直接的理论支撑。
03 从演示到数据:Gamma-World证明多人世界确实能够同步
论文展示了多组场景,从简单到复杂,逐步检验多智能体世界模型所需的核心能力。
Minecraft中的双人世界
在虚拟环境中,Gamma-World生成的不再是两段互不相关的第一人称视频,而是同一世界中的两组关联视角。当玩家A移动、采集或建造时,玩家B的视角中会同步出现相应变化;即便两人暂时脱离彼此视野,地形、物体和玩家的位置仍能在后续画面中保持一致性。
模型必须知晓多个视角指向同一个底层状态,而非分别生成两段表面合理的视频。当一块方块被放下后,它不能只出现在放置者的画面中;当一名玩家穿过另一名玩家的视野时,时间、方位和动作也必须精准对齐。否则,多人世界就只是分屏视频的简单拼接,而非真正的共享环境。
机器人双臂协同场景
Gamma-World还将同一套多智能体建模方法迁移到真实双臂机器人任务中:左右两条机械臂各自被视为一个Agent,围绕同一个桌面物体进行协同操作。生成结果中,两条机械臂的运动未发生互相穿透,桌面物体的位置在两个视角中保持一致,操作过程也未出现明显的空间错乱。这表明Gamma-World所捕捉的不是某一游戏规则的表面模式,而是一种更通用的多主体共享状态建模方式。

智能体数量扩展:从2人到4人
Gamma-World的另一核心创新在于:仅使用双人数据训练,即可在推理时直接生成四名玩家的同步画面。四路第一人称视角同时展开,每位玩家独立控制;彼此靠近的玩家能够互相看见,而远离的玩家虽无直接视觉接触,但共享的地形和建筑依然保持一致。

从这三组演示可以看出,Gamma-World验证的并非单点视觉效果,而是一条递进链路:在虚拟世界中对齐多个视角,在现实世界中迁移到物理协同,再由2人扩展至4人。Gamma-World堪称多个可控主体在同一个可持续演化的生成式世界中的典范。
评测指标全面领先
在定量评测指标上,Gamma-World同样表现出色。
Gamma-World在多人Minecraft环境的五类场景中,与Solaris及帧拼接方案相比,视频质量指标FVD和图像质量指标FID全面领先(两者数值越低越好)。其中,Memory场景的FVD从Solaris的333.8降至184.1,Building场景从448.6降至264.5,平均降幅超过40%。

04 两大底层设计破解多人世界模型的三道难题
多智能体世界模型的难点究竟何在?
其中存在三大结构性难题:跨视角一致性——玩家A砍倒一棵树,玩家B的画面中必须同样倒下;置换对称性——能力相同的智能体不应因编号不同而受到区别对待;扩展效率——全连接注意力的计算量随玩家数量呈平方增长,导致实时交互难以维持。
Gamma-World通过两项核心设计一并解决了这些难题。
身份编码:从数轴映射到正单纯形
视频Transformer利用3D RoPE来标记token的时间、高度和宽度。多智能体场景则需要第四个维度——模型必须知晓“这组token属于哪个智能体”。这一身份标记极易出错。
Solaris为每个玩家添加了一个可学习的player ID embedding——为每个槽位学习一组特定权重。这存在两个缺陷:模型对“1号位”和“2号位”产生了不同的先验偏好,破坏了对称性;同时人数被锁定,若要增加第三个玩家,要么重新训练,要么强行插入一个未见过的随机向量。另一种直观方案是为智能体分配标量相位θ_p = p·ω,像时间步一样排列在数轴上。但数轴上的距离与编号差成正比——agent 1和agent 3的角度差是1和2的两倍,导致模型认为编号相邻的智能体更接近,而在对称性的多人游戏中不存在这种先验假设。
Gamma-World的解法是将智能体映射到正单纯形(regular simplex)的顶点上——这是高维空间中所有顶点两两等距的几何体(二维为等边三角形,三维为正四面体)。在RoPE的旋转角空间中构造V个这样的顶点,数学上可证明任意两点距离恒为√(2V/(V−1)),与具体选取哪两个点无关。每个智能体随机分配到一个顶点,训练时通过随机映射防止槽位过拟合,推理时只需新增闲置顶点即可——无需改动架构、无需学习新参数,整个编码为parameter-free。
这正是两人训练、四人泛化的数学基础。消融实验直接证实:将learned view embedding替换为Simplex Encoding后,FVD从256.3降至228.5,FID从32.4降至29.6,其余部分保持不变。

跨智能体通信:利用hub token进行中继
玩家A放下一个方块,这一变化如何传递给玩家B的生成过程?Solaris采用dense joint attention:将所有玩家的所有token放入同一个注意力矩阵,计算复杂度为O(P²n²L²)。两人时尚可接受,但P是平方项——4人时计算量翻4倍,8人时翻16倍。此外,建模上存在浪费:地图两端互不可见的玩家进行像素级全连接,大部分算力被用于传递无用信息。真正重要的跨玩家信息——即“世界状态发生了什么变化”——是高度压缩的。
Gamma-World引入了一小组可学习的hub token作为“公告栏”:每个智能体只能看到自己的历史记录和hub,不能直接观察其他玩家;而hub可以观察到所有智能体。信息流变为两条路径agent→hub→agent,计算量从对玩家数的平方依赖降为线性。实测8人场景中,dense attention的延迟为17.6ms,Sparse Hub Attention仅需4.5ms,FLOPs差距约8倍。
更有趣的是消融实验的结果:引入Sparse Hub Attention后,FVD从228.5降至223.4,SSIM从0.830升至0.836——切断直接的跨玩家注意力后,质量反而略有提升。全连接中大量token级的跨玩家交互实际上是噪声,去除后模型能够更好地聚焦于真正有意义的全局状态变化。

三阶段蒸馏实现实时推理
在此基础之上,Gamma-World采用三阶段训练将模型推向实时可用:首先训练双向教师模型(采用全局注意力,质量最高但无法在线使用),然后训练因果学生模型(采用时间切分+Sparse Hub Attention,具备流式推理能力),最后通过条件蒸馏将采样步数压缩至4步——学生在自回归rollout下训练,每生成一个块就写入KV cache,再基于自身历史继续推理,使训练与推理的分布完全对齐。最终实现24 FPS的实时推理:每一帧都能接收新动作并更新共享世界状态。
两项设计缺一不可。Simplex Encoding保证了身份编码的对称性与可扩展性,Sparse Hub Attention确保了通信效率的线性增长。若仅有对称编码但通信复杂度为O(P²),人数增多时无法运行;若通信足够快但身份编码有偏,增加智能体后质量会骤降。Gamma-World从位置编码和注意力掩码这两个Transformer最底层的组件入手,以最小的架构改动同时实现了对称性、一致性和效率。
05 多智能体世界模型的未来走向
多智能体世界模型所开启的空间,远不止画面中增加几个玩家。回到一个更根本的问题:Physical AI为何迟迟未能像语言模型那样享受到Scaling Law的红利?核心瓶颈在于高质量交互数据的极度稀缺。语言数据可以从互联网中挖掘,但物理交互数据——比如一台机器人拿起杯子、另一台做出回应,或一名玩家改变环境、另一名据此决策——几乎不存在规模化的采集来源。真实世界的数据产出速度最终受限于人类时间和物理空间。
多智能体世界模型有望改变这一现状。当模型能够在共享环境中同时模拟多个智能体的交互时,它天然成为一台交互数据生成器——多个Agent在虚拟世界中对抗、协作、探索,24小时不间断地产出轨迹数据。Odyssey在Agora-1的博客中专门讨论了这一点:当世界模型支持多Agent交互时,强化学习智能体便能在生成式环境中进行开放式的自我进化。
这也意味着AI内容生产的基本单元正在发生变化。过去生成的是视频片段、图像;而现在生成的是一个可进入、可协作、可对抗的持续演化的环境。产出物从画面变成了世界,从单次渲染变成了持续交互。
这也正是Gamma-World这类工作最令人兴奋之处。我们无需无休止地用算力暴力拟合所有视角的像素,而是可以通过优雅的底层架构设计,让AI真正“理解”多主体间的因果与物理法则。从单机到联机,从旁观者到参与者。当世界模型不仅能生成逼真的光影,还能承载无限扩展的玩家与智能体在其中博弈、试错、进化时,我们或许正在见证下一代智能的诞生。
References
Gamma-World 论文:Fangfu Liu, Kai He, et al. "Gamma-World: Generative Multi-Agent World Modeling Beyond Two Players." arXiv:2605.28816, 2026.
Gamma-World 代码仓库:https://github.com/nv-tlabs/Gamma-World|项目主页:https://research.nvidia.com/labs/sil/projects/gamma-world/
Solaris:Georgy Sa vva, Oscar Michel, et al. "Solaris: Building a Multiplayer Video World Model in Minecraft." arXiv:2602.22208, 2026.
Odyssey Agora-1:odyssey.ml/introducing-agora-1, 2026.
刘芳甫个人主页:liuff19.github.io
Hugging Face 论文页:https://huggingface.co/papers/2605.28816





你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:00后清华博士联合英伟达发布Gamma-World多玩家共享世界模型要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点Coze空间具备上传附件识别文字、MCP扩展调用外部工具及探索与规划两种模式。规划模式能执行深度研究并实时追踪Agent思考过程,但无法访问权限受限网站。与工作台不同,空间专为适配未来协议而生,不涉及Agent搭建。
智谱清影在1080p 30fps输出下光影过渡平滑、运动节奏自然、纹理稳定,整体画面质感优于Vidu。Vidu免费版受限,实测存在云层亮度突变、动作轨迹偏移、天线抖动及瞳孔反光静止等问题,影响观感。
2026年全国科技活动周石楼县系列活动走进第七小学,通过人工智能讲座、AI图像生成体验、机器狗互动等多元形式,激发青少年科学兴趣,点亮科学梦想,播撒创新种子。
在人工智能的 Agent 设计中,ReAct(Reasoning + Acting)框架凭借其独特的决策与推理能力,一直是备受关注的核心方法之一。今天,咱们就通过一个用 LangChain SQLAgent 实现自然语言数据库查询的具体案例,把 ReAct 框架的基本工作原理彻底拆解清楚。 整篇文章
- 日榜
- 周榜
- 月榜
热点快看
