腾讯联合新加坡国立大学研发智能游戏NPC技术

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

腾讯联合新加坡国立大学研发智能游戏NPC技术

热心网友时间：2026-05-26

转载

在电子游戏中，形形色色的“非玩家角色”（NPC）构成了虚拟世界的基石。无论是街头的商人、与你对战的敌人，还是陪你冒险的伙伴，他们的存在都至关重要。然而，一个核心问题浮现：在由人工智能生成的游戏世界里，这些NPC究竟是真正拥有自主意识的智能体，还是仅仅像背景墙上会动的贴图，徒有其表？

这个触及游戏AI本质的问题，正是当前技术发展的关键瓶颈。一项由腾讯、新加坡国立大学、香港理工大学、香港科技大学（广州）、中国科学院大学及香港科技大学联合进行的前沿研究，对此进行了深度探索。这项于2026年5月发布在arXiv预印本平台（编号：arXiv:2605.15256v1）的研究，题为《ReactiveGWM: Steering NPC in Reactive Game World Models》，其核心目标正是赋予游戏角色真正的“生命感”。

当游戏NPC不再是

研究团队指出，当前主流的“游戏世界模型”——即那些利用AI从零生成游戏画面的系统——普遍存在一个显著缺陷：它们的“视野”过度聚焦于玩家。游戏中的其他角色，往往被简化为会动的像素集合，其行为模式被预先设定在统一的指令中，缺乏自主应变能力。这好比电影拍摄中，导演只关注主角的表演，而将所有配角视为按固定脚本移动的道具，何时行动、采用何种策略，完全没有自主决策空间。

为了突破这种“以玩家为中心”的局限，团队创新性地开发了一套名为ReactiveGWM的新系统。其名称中，“Reactive”意指“有反应的、能互动的”，而“GWM”代表“游戏世界模型”。该系统的核心思路，是为NPC赋予独立的策略思考模块，使其从被动的“背景板”升级为能制定战术的智能对手。研究选取了两款经典的《街头霸王》系列格斗游戏——《街头霸王II：冠军版》与《街头霸王Alpha 3》作为验证平台。

一、传统游戏AI为何如同“提线木偶”？

要理解这项研究的突破性，首先需要厘清现有技术的局限性。

沿用电影的比喻，传统的游戏世界模型就像一个只会严格遵循剧本的导演。当你希望AI生成一段游戏画面时，通常需要输入一张初始画面和一段描述整个场景的文字提示。问题的根源恰恰在于这个提示词：它通常将玩家动作、NPC行为、背景变化等所有元素混杂在一起进行笼统描述。

例如，一个典型的提示词可能是：“玩家跳起的同时NPC蹲下，然后向右移动……”这种描述方式存在根本性缺陷：NPC的每一个动作都被预先严格规定，它并非在“思考”如何应对玩家的行动，只是在机械地执行写好的剧本。从本质上说，这类模型更接近于一个高级的“视频序列生成器”，而非能够处理动态交互的“游戏引擎”。

这直接导致了糟糕的游戏体验：在真实的对抗性游戏中，一个优秀的NPC对手应该能够根据实时战况动态调整策略——是选择激进近身压制，还是远程骚扰消耗，或是稳健防守反击。如果NPC只会按固定套路行动，游戏就失去了博弈的深度和乐趣，变成一场预设好的演出。

问题的核心症结，在于NPC缺乏独立的决策逻辑。要让NPC真正“活”过来，关键在于为其配备一个专属的“决策大脑”，将其行为逻辑从混杂的全局指令中清晰地剥离出来。

二、训练AI理解“战斗策略”：数据构建的艺术

首要挑战是：如何让AI理解并执行NPC的高层策略？这好比教一个从未看过格斗比赛的人担任专业解说，必须提供大量比赛录像，并详细解释每位选手在不同时刻采用的战术意图。

为此，研究团队构建了一套精巧的数据处理流水线。流程大致如下：首先，利用stable-retro模拟器运行游戏，让一个“随机操作的玩家”与电脑控制的NPC进行对战。这个玩家会随机按下10个按键（4个方向键和6个攻击键）中的任意组合，直至一方落败。每场对战录像被切割成5秒的片段（100帧），并精确记录下每一帧中玩家的具体按键输入。

接下来是最关键的一步——为每个视频片段打上“战术标签”。团队引入了谷歌的Gemini大语言模型充当“客观的赛事记录员”，让它观看每个5秒片段，并回答12个关于NPC行为的客观问题，例如：“NPC是否出拳？”、“发射了几次飞行道具？”、“与玩家的距离是近、中、远？”、“NPC在前进还是后退？”等。

这个两步走的策略设计非常巧妙：Gemini只负责客观观察和记录事实，不直接判断战术类别；随后，一套预设的确定性规则引擎会根据这些观察结果，自动将NPC行为归类到三种互斥的战术风格中：进攻型（积极近身，寻求连续压制）、控场型（保持距离，利用远程招式牵制）、防守型（注重防御，伺机反击）。

这种方法的优势在于最大程度减少了AI“幻觉”可能带来的标注误差。Gemini可能偶尔看错某个细节，但很难在所有客观事实上同时出错；而规则引擎是确定性的，只要输入的事实正确，分类结果就必然可靠。通过这套方法，团队为每款游戏收集了约一万段带有精确战术标注的高质量训练数据。

三、为AI设计“双路控制系统”：架构的智慧

拥有了高质量的训练数据后，下一步是设计能够实现独立控制的模型架构。核心思路可以用驾驶来比喻：传统模型像只有一套方向盘和油门的车，所有指令挤在一起，容易互相干扰；而ReactiveGWM则为车辆安装了两套独立的控制系统——一套专门响应玩家的实时操作，另一套专门指挥NPC的高层战术。

具体而言，玩家的按键操作通过一种轻量级的“附加偏置”机制注入模型。每5秒的视频被划分成多个时间段，该时段内玩家按过的键会被汇总成一个10维的向量，随后被转换成模型能理解的形式，“均匀地”融入到每一帧画面像素的潜在表示中。这样，模型在生成每一帧时，都能实时“感知”到玩家此刻的输入意图。

NPC的高层战术则通过另一条完全独立的通道——交叉注意力模块——进行注入。“注意力”机制是深度学习的核心，可以理解为模型在生成画面元素时，会动态地“参考”战术提示词来调整输出重点。团队将NPC战术提示词设计为三部分结构：NPC的主动行为（如蹲防、音速拳）、被动行为（如挨打、被击倒），以及总体战术类别与文字描述。

这种“分而治之”的架构设计带来了一个显著优势：模型学习到的NPC战术控制能力可以被“模块化”地提取出来，并迁移到其他游戏中。好比在《街头霸王II》中训练出的“战术决策模块”，可以无缝适配《街头霸王Alpha 3》的新角色和新招式，无需从零开始重新训练。

四、零样本迁移：一个会“跨界执教”的AI教练

这种跨游戏的迁移能力是本研究中最引人注目的亮点之一。团队通过以下方式实现：假设已经有一个在《街头霸王II》上训练好的完整ReactiveGWM模型（称为“源模型”），以及一个在《街头霸王Alpha 3》上训练的、NPC无自主战术的传统模型。接着，团队进行了一次精妙的“模块移植”——将源模型中负责NPC战术控制的交叉注意力模块直接“嫁接”到《街头霸王Alpha 3》的传统模型上，从而快速得到一个具备NPC战术控制能力的“迁移版”模型。

实验结果令人惊喜：这个嫁接后的模型，真的能在《街头霸王Alpha 3》中成功指挥NPC执行各种战术指令！更精妙的是，游戏的视觉风格、角色动作和物理规则完全不受影响，生成的画面与原版游戏高度一致。

为何“移植”能够成功？深入分析发现，交叉注意力模块在整个模型的计算中仅消耗约0.71%的参数量或计算资源。换言之，模型99.3%的工作（如处理视觉效果、物理规律、基础动作）由其他骨干模块承担。交叉注意力模块更像一个“低带宽但高精度的指挥频道”，它不大幅改变画面的主体内容，只精细地微调NPC的行为方向和策略意图。

进一步的分析表明，迁移模块引入的“控制信号方向”与原始模型内部信号存在显著差异（余弦相似度仅0.55）。这种细微但持续存在的方向性引导，经过神经网络多层传递与扩散步骤的累积放大，最终足以引发NPC行为模式的根本性变化。

五、实战性能评估：AI对手的智能程度如何？

任何理论都需要经过严格的实践检验。团队设计了一套三维度的综合评估体系：玩家动作执行准确度、NPC战术执行准确度、生成画面的视觉质量。

在玩家控制方面，团队设计了100组测试用例（每组包含起始画面和单一按键指令），生成41帧后检验动作是否被准确执行。借助SAM2.1和Grounding DINO等先进的图像分割工具自动追踪角色位置，并利用基于ResNet-18和时间卷积网络（TCN）的攻击动作分类器进行自动判断。结果显示，ReactiveGWM在《街头霸王Alpha 3》上的移动与攻击准确度均达到100%，在《街头霸王II》上也分别达到95%和93.3%，与传统模型性能持平。这证明赋予NPC自主性并未以牺牲玩家的操控体验为代价。

在NPC战术执行方面，团队从测试集中精选了99段视频（每种战术各33段），使用Gemini和Qwen3-VL-8B两个强大的视觉语言模型作为“AI裁判”进行自动化评判。结果对比鲜明：在《街头霸王II》上，传统模型对战术指令的遵循度仅约43%，而ReactiveGWM基础版达到75.8%-76.8%，提升近一倍。在《街头霸王Alpha 3》上，传统模型约41%，ReactiveGWM达到78.8%-79.8%。即便是通过“移植”得到的迁移版模型，其战术执行准确度也有63%-73%，远超传统模型。

在视觉质量方面，ReactiveGWM在结构相似性（SSIM）和感知相似性（LPIPS）等客观指标上，均与传统模型保持在同一水准，证明增加复杂的战术控制并未以牺牲画面保真度为代价。

六、NPC的“演技”进化：从木偶到对手

数据或许抽象，但具体的效果一目了然。当指令设置为“进攻”时，NPC会主动且快速地接近玩家，发起连绵不断的近身攻击，宛如一位急切的拳手不断寻找出拳时机。当指令切换为“防守”后，同一个NPC立刻变得谨慎稳重，保持安全距离，对玩家的每个试探性动作做出精准的闪避或格挡，仿佛一位经验老道的拳手在耐心等待对手露出破绽。若指令是“控场”，NPC则会稳稳占据中远距离，持续发射音速拳或飞行道具，用远程火力网络压制玩家的活动空间，类似于现代战争中的火力覆盖战术。

更精细的测试表明，模型能准确执行复杂的组合行为指令。例如，提示词为“站立拳击+投技”时，NPC会先完成精准的出拳连击，随后无缝衔接擒抱摔投动作。提示词为“跳跃攻击+站立拳击”时，NPC会流畅地完成空中攻击后，落地瞬间立刻接上地面拳击连招。这些细节证明，模型不仅能理解高层的战术意图，还能精确地操控和组合具体的动作序列。

团队还进行了一项有19名资深格斗游戏玩家参与的用户主观研究。在玩家动作执行的流畅度上，各版本模型得分相近（4.32-4.60/5分）。但在NPC战术意图的识别上，差距立现：在《街头霸王II》中，传统模型NPC的战术被玩家识别的准确率仅43.9%，而ReactiveGWM基础版高达86%，迁移版也达到84.2%；在《街头霸王Alpha 3》中，传统模型暴跌至17.5%，基础版为77.2%，迁移版为61.4%。

然而，用户研究也揭示了一个当前弱点：迁移版模型在《街头霸王Alpha 3》的“控场”战术上表现不佳，玩家识别准确率仅16%。推测原因在于，控场战术高度依赖特定游戏的远程招式（如波动拳、音速拳），其动画效果、飞行速度、出招硬直在不同游戏间差异较大，因此比相对通用的进攻、防守等基础行为更难实现完美迁移。

七、研究的深远意义与未来展望

回到最初的问题：游戏NPC是“活”的角色还是“动”的像素？这项研究给出了一个乐观且具有指向性的答案：通过将NPC的战术控制逻辑与游戏的视觉、物理生成模块进行解耦，AI生成的游戏世界完全可以让NPC拥有自己的“思考”和“决策”。

对游戏开发行业而言，这预示着一类全新的内容生产范式。未来，开发者或许无需再为每个NPC手工编写复杂且脆弱的行为树或状态机脚本，只需提供高层的战术描述或目标，AI便能自动生成与之相符的、丰富多变的行为序列。更吸引人的是，一套训练成熟的“通用战术控制器”可以被复用于风格相似的不同游戏中，这将显著降低开发成本，加速内容生产。

对广大玩家来说，未来的AI生成游戏将可能提供更具挑战性与趣味性的体验。你将不再面对按固定剧本表演的木偶式对手，而是与一个真正懂得审时度势、能够动态调整策略的“AI棋手”进行较量。这种充满不确定性的动态博弈所带来的深度乐趣，正是电子游戏经久不衰的核心魅力之一。

当然，研究团队也坦诚指出了当前的局限性。验证目前仅局限于2D格斗游戏这一特定领域，其方法论能否顺利推广至FPS（第一人称射击）、MOBA（多人在线战术竞技）或开放世界RPG等其他复杂游戏类型，尚待进一步检验。此外，底层所依赖的扩散模型在生成速度上仍较慢，无法实现实时交互，距离真正的、可玩的AI实时游戏引擎尚有距离。未来可能需要结合自回归视频生成、模型蒸馏或潜在一致性模型等更快的技术路径来提升推理速度。

归根结底，这项研究的最大价值，或许在于它明确指出了一个长期被忽视的研发方向：AI生成的虚拟世界不应只聚焦于塑造“主角的视角”，而应致力于让世界中的每一个角色都拥有自己的存在感和决策逻辑。当虚拟世界中的每个角色都开始真正“思考”和“反应”时，那个世界才称得上是一个富有生命力、值得探索的沉浸式世界。

常见问题解答（Q&A）

Q1：ReactiveGWM和普通的游戏世界模型核心区别是什么？

A：最根本的区别在于对NPC的定位和控制方式。普通模型将NPC视为场景背景的一部分，其行为被硬编码在统一的文本提示词中，缺乏独立性。ReactiveGWM则创新性地采用了“双路控制系统”：玩家实时按键通过“附加偏置”机制注入，而NPC的高层战术（如进攻、防守、控场）则通过一个独立的交叉注意力模块进行控制。这使得NPC能根据清晰的战术指令自主决策和执行，而非机械地按固定剧本行动，实现了从“道具”到“对手”的转变。

Q2：ReactiveGWM的技术能否应用于不同的游戏？迁移效果如何？

A：可以，并且支持高效的“零样本迁移”，无需在新游戏上重新训练完整模型。研究发现，ReactiveGWM学习到的NPC战术控制模块能够作为一个独立组件，直接“移植”到其他同类游戏的现有模型中。例如，在《街头霸王II》上训练出的战术模块，可直接用于增强《街头霸王Alpha 3》的普通模型，在保持画面风格不变的同时，立即使NPC获得理解并执行战术指令的能力。不过，研究也发现，那些高度依赖特定游戏专属招式（如某个角色的特殊飞行道具）的“控场”类战术，其迁移效果会稍打折扣。

Q3：基于ReactiveGWM技术的游戏，目前玩家可以体验到了吗？

A：目前尚不能直接体验。这仍是一项处于前沿探索阶段的研究，团队在两款经典街霸游戏上验证了其技术可行性。由于底层基于扩散模型，其单次生成速度较慢，无法满足实时交互游戏（通常需要60帧/秒）的苛刻要求。研究团队指出，未来需要结合更快的视频生成技术（如自回归模型）及模型压缩、蒸馏等方法，大幅提升推理效率，才能最终将其转化为真正可玩、可交互的下一代AI游戏引擎。

来源:https://www.techwalker.com/2026/0522/3187894.shtml

上一篇： Comscore美国桌面AI访问量排名：ChatGPT稳居榜首 Claude三月激增130%紧追

下一篇：十五五期间新型电网建设投资将超5万亿元