数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

热点详情

00后清华博士联合英伟达发布Gamma-World多玩家共享世界模型

AI热点日报时间：2026-05-31

热点解读

NVIDIA联合清华等机构发布Gamma-World，从位置编码与注意力机制底层入手，解决多智能体世界模型中身份对称性、跨视角一致性和扩展效率问题。SimplexEncoding实现双人训练四人泛化，SparseHubAttention将计算量从平方降为线性，在Minecraft和机器人场景中FVD降低超40%，达24FPS实时推理。

01 单机世界模型时代正走向终结，多智能体交互成新焦点

过去两年间，主流视频世界模型主要聚焦于单智能体预测任务：依据给定的动作序列，模型生成单一视角下的未来帧。Sora、Cosmos、Genie 3 等系列工作持续提升画面质量、时序一致性和交互响应能力，证明了AI能够在某种程度上模拟出可观看、可控制的虚拟世界。

然而，现实世界并非由单一主体构成。

在工厂产线上，一台机械臂的运动轨迹会限制另一台机械臂的作业空间；自动驾驶场景中，一辆车的变道行为会影响周边车辆的路径规划。在多人游戏里，一名玩家的走位会改变队友与对手的决策空间。这些场景的共同特性在于因果耦合：一个智能体的行为改变了共享环境的状态，其他所有智能体必须感知这一变化并相应调整行动。

业界已开始涉足这一复杂领域，并探索出多条富有启发性的技术路线。

Solaris 在Minecraft中采集了1264万帧多人同步数据，训练出能够同步生成双人视频的世界模型。该工作证明了多视角同步生成的可行性，但扩展到三人及以上场景时，注意力机制的计算复杂度成为绕不开的瓶颈。

Odyssey 旗下的 Agora-1 实现了四个玩家共享实时生成的GoldenEye对战世界。其解法是将模拟与渲染解耦，依赖显式游戏引擎状态作为中间表示。这本质上是退化成了一个神经渲染器，绕过了“从像素中学习物理规律”这一世界模型的核心挑战。

总体来看，前沿探索为多智能体世界模型奠定了坚实基础。在此之上，如何进一步实现对称且可扩展的身份编码、高效且不依赖外部状态的跨智能体通信，以及端到端泛化能力，成为下一阶段的核心课题。

5月27日，NVIDIA、清华大学、多伦多大学和Vector Institute联合发布了Gamma-World（γ-World）。该方法并未采用多路画面拼接，也未依赖显式游戏状态，而是从位置编码和注意力机制这两个底层组件出发，直接应对多智能体世界模型中的核心约束：如何表示身份而不破坏对称性，如何共享状态并保持一致性，以及如何高效通信而不受算力限制。

论文发布后，Gamma-World迅速登上Hugging Face Papers当日榜单首位。对于一篇偏底层架构的世界模型论文而言，这一热度信号表明，多智能体世界模型正从小众技术问题走向更主流的AI研究视野。

02 第一作者刘芳甫：从空间智能到世界模型，持续不断的研究主线

Gamma-World的第一作者是来自清华大学的刘芳甫。他于2023年从清华大学电子系本科毕业后直博，研究方向涵盖空间智能与世界模型。刘芳甫在极短时间内构建了令人瞩目的学术履历：在TPAMI、CVPR、ECCV、NeurIPS、ICCV、ICLR、KDD等计算机视觉与人工智能顶级会议和期刊上发表了近三十余篇论文，其项目GitHub Star累计超过一万，并担任CVPR、NeurIPS、ICML、ICLR、ICCV、SIGGRAPH等顶级会议的审稿人。

Gamma-World之所以选择从底层重构多智能体的交互机制，是刘芳甫过去几年研究主线的自然延续。梳理他近年来在各大顶会发表的数十篇论文，可以清晰看到一条逻辑递进脉络：世界模型不应只停留在“生成画面”层面，而需要理解Agent、动作与环境的相互关系，从而在交互中实现同步演化。他早期的CASPER探索了因果发现，随后的Unique3D、Physics3D和ReconX等工作系统性完成了从3D物体静态生成到4D物理动态场景生成的跨越。到近期的Video-T1、Spatial-MLLM和Spatial-TTT，研究重心已明确转向空间推理与模型泛化。这种对物理约束和动态交互的长期关注，为Gamma-World解决多智能体状态一致性问题提供了直接的理论支撑。

03 从演示到数据：Gamma-World证明多人世界确实能够同步

论文展示了多组场景，从简单到复杂，逐步检验多智能体世界模型所需的核心能力。

Minecraft中的双人世界

在虚拟环境中，Gamma-World生成的不再是两段互不相关的第一人称视频，而是同一世界中的两组关联视角。当玩家A移动、采集或建造时，玩家B的视角中会同步出现相应变化；即便两人暂时脱离彼此视野，地形、物体和玩家的位置仍能在后续画面中保持一致性。

模型必须知晓多个视角指向同一个底层状态，而非分别生成两段表面合理的视频。当一块方块被放下后，它不能只出现在放置者的画面中；当一名玩家穿过另一名玩家的视野时，时间、方位和动作也必须精准对齐。否则，多人世界就只是分屏视频的简单拼接，而非真正的共享环境。

机器人双臂协同场景

Gamma-World还将同一套多智能体建模方法迁移到真实双臂机器人任务中：左右两条机械臂各自被视为一个Agent，围绕同一个桌面物体进行协同操作。生成结果中，两条机械臂的运动未发生互相穿透，桌面物体的位置在两个视角中保持一致，操作过程也未出现明显的空间错乱。这表明Gamma-World所捕捉的不是某一游戏规则的表面模式，而是一种更通用的多主体共享状态建模方式。

智能体数量扩展：从2人到4人

Gamma-World的另一核心创新在于：仅使用双人数据训练，即可在推理时直接生成四名玩家的同步画面。四路第一人称视角同时展开，每位玩家独立控制；彼此靠近的玩家能够互相看见，而远离的玩家虽无直接视觉接触，但共享的地形和建筑依然保持一致。

从这三组演示可以看出，Gamma-World验证的并非单点视觉效果，而是一条递进链路：在虚拟世界中对齐多个视角，在现实世界中迁移到物理协同，再由2人扩展至4人。Gamma-World堪称多个可控主体在同一个可持续演化的生成式世界中的典范。

评测指标全面领先

在定量评测指标上，Gamma-World同样表现出色。

Gamma-World在多人Minecraft环境的五类场景中，与Solaris及帧拼接方案相比，视频质量指标FVD和图像质量指标FID全面领先（两者数值越低越好）。其中，Memory场景的FVD从Solaris的333.8降至184.1，Building场景从448.6降至264.5，平均降幅超过40%。

04 两大底层设计破解多人世界模型的三道难题

多智能体世界模型的难点究竟何在？

其中存在三大结构性难题：跨视角一致性——玩家A砍倒一棵树，玩家B的画面中必须同样倒下；置换对称性——能力相同的智能体不应因编号不同而受到区别对待；扩展效率——全连接注意力的计算量随玩家数量呈平方增长，导致实时交互难以维持。

Gamma-World通过两项核心设计一并解决了这些难题。

身份编码：从数轴映射到正单纯形

视频Transformer利用3D RoPE来标记token的时间、高度和宽度。多智能体场景则需要第四个维度——模型必须知晓“这组token属于哪个智能体”。这一身份标记极易出错。

Solaris为每个玩家添加了一个可学习的player ID embedding——为每个槽位学习一组特定权重。这存在两个缺陷：模型对“1号位”和“2号位”产生了不同的先验偏好，破坏了对称性；同时人数被锁定，若要增加第三个玩家，要么重新训练，要么强行插入一个未见过的随机向量。另一种直观方案是为智能体分配标量相位θ_p = p·ω，像时间步一样排列在数轴上。但数轴上的距离与编号差成正比——agent 1和agent 3的角度差是1和2的两倍，导致模型认为编号相邻的智能体更接近，而在对称性的多人游戏中不存在这种先验假设。

Gamma-World的解法是将智能体映射到正单纯形（regular simplex）的顶点上——这是高维空间中所有顶点两两等距的几何体（二维为等边三角形，三维为正四面体）。在RoPE的旋转角空间中构造V个这样的顶点，数学上可证明任意两点距离恒为√(2V/(V−1))，与具体选取哪两个点无关。每个智能体随机分配到一个顶点，训练时通过随机映射防止槽位过拟合，推理时只需新增闲置顶点即可——无需改动架构、无需学习新参数，整个编码为parameter-free。

这正是两人训练、四人泛化的数学基础。消融实验直接证实：将learned view embedding替换为Simplex Encoding后，FVD从256.3降至228.5，FID从32.4降至29.6，其余部分保持不变。

跨智能体通信：利用hub token进行中继

玩家A放下一个方块，这一变化如何传递给玩家B的生成过程？Solaris采用dense joint attention：将所有玩家的所有token放入同一个注意力矩阵，计算复杂度为O(P²n²L²)。两人时尚可接受，但P是平方项——4人时计算量翻4倍，8人时翻16倍。此外，建模上存在浪费：地图两端互不可见的玩家进行像素级全连接，大部分算力被用于传递无用信息。真正重要的跨玩家信息——即“世界状态发生了什么变化”——是高度压缩的。

Gamma-World引入了一小组可学习的hub token作为“公告栏”：每个智能体只能看到自己的历史记录和hub，不能直接观察其他玩家；而hub可以观察到所有智能体。信息流变为两条路径agent→hub→agent，计算量从对玩家数的平方依赖降为线性。实测8人场景中，dense attention的延迟为17.6ms，Sparse Hub Attention仅需4.5ms，FLOPs差距约8倍。

更有趣的是消融实验的结果：引入Sparse Hub Attention后，FVD从228.5降至223.4，SSIM从0.830升至0.836——切断直接的跨玩家注意力后，质量反而略有提升。全连接中大量token级的跨玩家交互实际上是噪声，去除后模型能够更好地聚焦于真正有意义的全局状态变化。

三阶段蒸馏实现实时推理

在此基础之上，Gamma-World采用三阶段训练将模型推向实时可用：首先训练双向教师模型（采用全局注意力，质量最高但无法在线使用），然后训练因果学生模型（采用时间切分+Sparse Hub Attention，具备流式推理能力），最后通过条件蒸馏将采样步数压缩至4步——学生在自回归rollout下训练，每生成一个块就写入KV cache，再基于自身历史继续推理，使训练与推理的分布完全对齐。最终实现24 FPS的实时推理：每一帧都能接收新动作并更新共享世界状态。

两项设计缺一不可。Simplex Encoding保证了身份编码的对称性与可扩展性，Sparse Hub Attention确保了通信效率的线性增长。若仅有对称编码但通信复杂度为O(P²)，人数增多时无法运行；若通信足够快但身份编码有偏，增加智能体后质量会骤降。Gamma-World从位置编码和注意力掩码这两个Transformer最底层的组件入手，以最小的架构改动同时实现了对称性、一致性和效率。

05 多智能体世界模型的未来走向

多智能体世界模型所开启的空间，远不止画面中增加几个玩家。回到一个更根本的问题：Physical AI为何迟迟未能像语言模型那样享受到Scaling Law的红利？核心瓶颈在于高质量交互数据的极度稀缺。语言数据可以从互联网中挖掘，但物理交互数据——比如一台机器人拿起杯子、另一台做出回应，或一名玩家改变环境、另一名据此决策——几乎不存在规模化的采集来源。真实世界的数据产出速度最终受限于人类时间和物理空间。

多智能体世界模型有望改变这一现状。当模型能够在共享环境中同时模拟多个智能体的交互时，它天然成为一台交互数据生成器——多个Agent在虚拟世界中对抗、协作、探索，24小时不间断地产出轨迹数据。Odyssey在Agora-1的博客中专门讨论了这一点：当世界模型支持多Agent交互时，强化学习智能体便能在生成式环境中进行开放式的自我进化。

这也意味着AI内容生产的基本单元正在发生变化。过去生成的是视频片段、图像；而现在生成的是一个可进入、可协作、可对抗的持续演化的环境。产出物从画面变成了世界，从单次渲染变成了持续交互。

这也正是Gamma-World这类工作最令人兴奋之处。我们无需无休止地用算力暴力拟合所有视角的像素，而是可以通过优雅的底层架构设计，让AI真正“理解”多主体间的因果与物理法则。从单机到联机，从旁观者到参与者。当世界模型不仅能生成逼真的光影，还能承载无限扩展的玩家与智能体在其中博弈、试错、进化时，我们或许正在见证下一代智能的诞生。

References

Gamma-World 论文：Fangfu Liu, Kai He, et al. "Gamma-World: Generative Multi-Agent World Modeling Beyond Two Players." arXiv:2605.28816, 2026.

Gamma-World 代码仓库：https://github.com/nv-tlabs/Gamma-World｜项目主页：https://research.nvidia.com/labs/sil/projects/gamma-world/

Solaris：Georgy Sa vva, Oscar Michel, et al. "Solaris: Building a Multiplayer Video World Model in Minecraft." arXiv:2602.22208, 2026.

Odyssey Agora-1：odyssey.ml/introducing-agora-1, 2026.

刘芳甫个人主页：liuff19.github.io

Hugging Face 论文页：https://huggingface.co/papers/2605.28816

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：00后清华博士联合英伟达发布Gamma-World多玩家共享世界模型要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://www.bestblogs.dev/article/5657f755?utm_source=rss&utm_medium=feed&utm_campaign=resources&entry=rss_article_item

Gamm

上一篇：商汤科技正式发布开源全新SenseNova-U1-8B-MoT信息图增强模型

下一篇：OpenClaw小龙虾使用体验与真实感受分享

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。