世界模型实现多人联机FPS游戏突破

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

业界动态

世界模型实现多人联机FPS游戏突破

热心网友时间：2026-05-19

转载

我被AI“击败”了吗？一段视频记录下了这个瞬间：在一个由世界模型构建的数字空间里，一个身份不明的对手用一发子弹终结了我的游戏角色。

这一幕发生在一个画面略显粗糙的网页版第一人称射击游戏中。但关键在于，你所看到的一切——动态的场景、移动的角色、实时的交火——其背后并非传统的游戏引擎、预设的物理规则或一行行渲染代码在驱动。整个虚拟世界的运转，都依赖于一个名为Agora-1的世界模型在实时计算与生成。更值得深思的是，在这个独特的竞技场中，人类玩家与AI玩家正在同场公平对决。

一场由世界模型驱动的“黄金眼”复刻对决

不妨先观看官方的产品发布视频。其观感相当独特，与常见的科技产品演示截然不同。制作团队的审美颇具风格，短片整体氛围让人联想到《黑镜》系列剧集。尤其值得注意的是，视频中的人物也带有一种微妙的“非真实感”，让人不禁猜测他们是否也是AI生成的数字形象。

视频传达的核心信息非常明确：他们开发了一款由世界模型驱动的多人对战游戏，最多支持四名玩家（人类与AI混合）在同一个AI实时生成的世界中进行射击对抗。看到这里，很难不产生亲自上手体验的冲动。

果然，发布帖文中附带了游戏的直接体验链接。开发团队甚至在评论区留下了颇具挑战意味的留言：“去碾压那些新手吧！”

于是，体验开始了。点击链接的瞬间，此前观看视频时的直觉便得到了印证——这个产品从里到外都透着一股“非同寻常”的实验气息。

这种感受首先来自听觉：背景音乐的曲风异常独特，旋律极具记忆点和沉浸感。视觉上，深色调、低饱和度的用户界面设计，进一步强化了那种置身于科幻电影中的疏离氛围。细节也毫不马虎，例如鼠标悬停在按钮上时，会触发质感沙哑的老式收音机切换音效，仿佛在操作一款复古风格的悬疑游戏。

进入游戏，首先需要创建并输入角色名称。随后，玩家会进入一个在线等待室。

这里的匹配机制有点意思：游戏需要凑齐最多四名玩家才能开始，但如果等待时间过长，两名玩家也可以直接开局。这引发了一个疑问：既然宣称有AI玩家参与，为何不在人数不足时让AI自动补位呢？其背后的设计逻辑值得玩味。

要深入理解这款游戏，需要一点背景知识。它本质上是在致敬1997年任天堂N64平台上的经典之作——《GoldenEye 007》。这款改编自007电影《黄金眼》的游戏，被广泛认为是主机平台第一人称射击（FPS）多人对战模式的奠基者之一。其规则极其简单：分屏对战，使用各类枪械，唯一目标就是消灭所有对手，即经典的“死亡竞赛”模式。

Agora的这款演示游戏完全继承了这一核心设计。游戏开始后，玩家会置身于一个带有“后室”或“阈限空间”风格的场景中。

环境氛围诡异，而玩家的移动方式更是增添了这种怪异感——角色移动时没有脚步声，如同在光滑的冰面上平滑漂移。所有角色的动作都显得有些不自然和同质化，以至于你根本无法从外观或行为上分辨哪个是真人玩家，哪个是AI控制的对手。

然而，真正的挑战来自于其独特的操控体验。游戏不支持用鼠标直接控制视角转向，而是强制使用键盘左右方向键进行操作。这导致了极高的操作延迟和明显的动作惯性，移动起来如同失控的漂移，使得精确瞄准变得极其困难。准星很难稳定地停留在快速移动的敌人身上。

于是，在还没完全熟悉操作和地形时，“死亡”就突然降临了。

往往一枪未中，就被不知从何而来的对手精准击倒。这不得不让人怀疑，对方是否就是那个不受笨拙操作限制的AI。阵亡画面是一片深红色调，体验相当憋屈。

最终的战绩结算界面，或许能带来一丝安慰——当然，也可能只是因为对手同样是“新手”或本身就是AI。

除了核心对战，游戏里还隐藏着一些有趣的细节彩蛋。例如，点击“信息”按钮可以查看开发公司Odyssey的简要介绍。

更有意思的是，有玩家发现，你可以利用地图的“bug”卡进砖块墙体内部。这时，世界模型并不会崩溃或显示黑屏错误，而是会即时生成一个本不该存在的内部空间几何，将视觉上的缺口逻辑性地填补上。

这个现象深刻揭示了世界模型与传统游戏引擎的根本不同。在传统游戏中，地图边界之外是程序员未定义的“虚无”或空气墙。但对于世界模型而言，“边界”这个概念本身可能是模糊或可延展的，它有能力根据当前的状态和玩家的行为，即时演算并生成符合逻辑的视觉内容。

然而，重点从来不是这款演示游戏本身是否足够“好玩”。回想一下刚才描述的核心操作：移动、瞄准、射击、环境互动——这些在传统游戏逻辑里是基础模块。但请别忘了，这一切都发生在一个由AI实时生成并驱动的动态世界里。没有硬编码的物理法则，没有预先烘焙的地图素材，你所见的每一帧画面，包括那些因“越界”而意外窥见的景象，都是模型根据共享状态即时计算渲染的结果。

选择《黄金眼》作为技术试验场，本身也极具象征意义。这种混乱的分屏多人玩法之所以技术挑战巨大，正是因为它极易暴露出不同玩家视角间的状态不同步与视觉不连贯。要实现稳定的多人FPS体验，必须保证所有参与者感知到的世界状态是高度一致且同步的，这对一个持续模拟、动态生成的环境提出了苛刻的一致性要求。

更重要的是，实时互动的游戏场景极易失控和出现逻辑悖论。如何在环境的无限复杂性与游戏的可玩性、公平性之间取得精妙平衡，是横亘在所有世界模型开发者面前的巨大难题。那么，创造出这一切的，究竟是怎样的一个团队？

Odyssey：专注通用世界模型研发的AI探险家

打造这款游戏的公司名为Odyssey，成立于2023年。其名称源于古希腊史诗《奥德赛》，寓意漫长的探索之旅，这与公司整体的产品调性与视觉设计风格颇为契合。

这是一家专注于通用世界模型（General World Model）研发的AI实验室，其产品线几乎全部围绕世界模型的构建与应用展开。创始团队背景很有意思：Oliver Cameron和Jeff Hawke，两人均有深厚的自动驾驶领域技术背景。

2024年7月，Odyssey首次在资本市场亮相，获得了由GV（原Google Ventures）领投的900万美元种子轮融资。短短几个月后，公司又完成了1800万美元的A轮融资，总融资额达到2700万美元。起初，他们的业务方向与游戏并无直接关联，更偏向当时流行的AI视频生成。但如今，其叙事已明显转向了更具交互性和主动性的物理世界模拟。

Agora-1便是其最新研究成果，其最大突破在于——支持多人实时交互与状态同步。

此前的主流世界模型，无论画面多么精美，本质上都是“单人体验”。用户只能在AI生成的世界里进行孤独的探索或有限的交互。而Agora-1首次在技术上允许最多四名玩家同时进入同一个生成世界并进行实时互动（尽管当前体验尚不完善）。

那么，实现“多人”同步究竟难在何处？这个问题值得深入探讨。此前并非没有尝试者，例如Multiverse和Solaris等项目便探索过不同的技术路径。

Multiverse的思路较为直观：将所有玩家的视角状态拼接成一幅分屏画面，将其作为一张整体图像输入模型处理。这种方法虽然能初步运行，但显得较为粗暴，并未从根本上解决状态一致性问题。Solaris则尝试将每个参与者的数据沿着单个自回归扩散Transformer的序列维度进行拼接，以生成更稳健的共享模拟。但这种方法面临明显的扩展性瓶颈：参与者一多，模型需要处理的上下文长度便会爆炸式增长，计算成本高昂。

这两条路径还有一个共同的痛点：当玩家彼此离开视野范围，处于不同区域时，系统很难稳定、高效地维持整个世界状态的一致性。通俗地说，就是模型的“记忆”和“算力”面临巨大挑战。

为了从根本上解决负载与一致性问题，Agora-1选择了一条创新的技术路线——将“状态仿真”与“视觉渲染”两个核心过程进行解耦。

Agora-1实际上训练了两个独立的函数模型：

1. 仿真函数模型：学习世界底层状态如何随时间推移而演化，以及这种演化如何响应多名玩家的交互动作。为此，团队直接在《黄金眼》等经典游戏的内核状态数据上训练模型。该模型学习的是底层的游戏动态逻辑与规则，以及玩家动作如何触发精确的状态转移。

2. 渲染函数模型：学习如何将上述共享的、统一的世界状态，实时渲染成每位玩家视角下的视觉画面。这一步通过一个基于DiT（扩散Transformer）架构的视觉世界模型完成。该模型直接以共享的游戏状态为条件进行图像生成，而不依赖于传统的文本提示词或单张图像条件信号。

可以粗略地将这种架构类比为现代游戏引擎的“逻辑层”与“表现层”分离。但关键区别在于，Agora-1的这两个组件都是通过海量数据机器学习得来的，不依赖于任何手写的游戏逻辑代码或预设的渲染规则。其革命性结果是：底层的游戏状态可以被直接、灵活地操控和演化。这意味着，Agora-1能够生成全新的、未见过的游戏关卡，同时严格保持与原始游戏一致的核心玩法和物理动态。这正是它实现多人游戏状态高度一致性的核心技术秘诀。

值得一提的是，在发布Agora-1的前一天，Odyssey还推出了另一个名为Starchild-1的模型，并称之为首个实时多模态世界模型。坦白说，这个模型带来的触动和想象力或许更大。

它能够同步实时生成视觉与听觉内容，并支持低延迟交互。例如，你可以让它“弹奏”虚拟钢琴，琴键图像落下的同时，相应的乐音也随之实时产生。更富想象力的是，它可以用AI重构的方式，带你“重温”一段温暖的记忆场景，比如一场婚礼。这为AIGC的应用开辟了全新的情感与记忆空间：或许未来，它可以用来填补或再现那些我们无论如何努力也无法清晰回忆起来的记忆缺口。

真实，还重要吗？关于世界模型的终极思考

体验至此，难免让人产生一丝恍惚与深思。必须承认，这些产品都处于非常早期的原型阶段。画质粗糙、操控蹩脚、延迟明显，体验远称不上流畅完美，距离像GPT-4o那样让普通用户直观感受到技术震撼的阶段尚有距离。

但在试玩Agora-1的某个瞬间，那种恍惚感是真实而强烈的：我瞄准一个角色并开枪，它应声倒下。但我不知道它是人还是AI；我不知道眼前这个世界是如何被一帧帧实时渲染出来的；我甚至不确定，我的对手所看到的世界景象，是否与我看到的完全相同。然后我突然意识到——我所经历的一切交互与反馈，都是一个庞大数学模型实时计算的结果。

这种感觉非常奇特，它挑战着我们对“虚拟”与“现实”的固有认知。

最近，随着GPT等大语言模型的更新，人们开始担忧AI生成虚假聊天记录和图片，感叹“有图有真相”的时代或许正在终结。但相比之下，静态的虚假图片或许还不是最令人深思的。世界模型不同，它模拟的是一个持续运转、多人共享、实时演化并相互影响的动态环境。它试图模拟的，不仅是空间，更是时间流本身，是主观的、连续的体验过程。

今年以来，目睹世界模型技术持续快速进化——从画面模糊到逐渐清晰，从单人体验到支持多人，从仅有视觉画面到融入声音、甚至未来可能的触觉等多重感官——有时会让人不寒而栗。一个终极的哲学与技术问题悄然浮现：我该如何确信，自己所处的当下这个“现实”世界，不是某个更高级、我们尚未察觉的世界模型所生成的？

1997年，年轻人们围在N64的小屏幕前分屏追逐，觉得那便是最酷的电子娱乐。2026年，AI学会了自行生成并维持一个可互动的动态世界，而它的创造者则“邀请”着我这样的用户投身其中进行测试。按照当前AI指数级的发展速度，到2035年，情景又会如何演变？