蔡浩宇新视频模型如何为游戏行业注入创新动力

LPM 1.0 的亮相,或许只是掀开了冰山一角。蔡浩宇真正在构建的,很可能是下一个时代的游戏引擎基石。
4月9日,一篇来自Anuttacon团队的论文悄然出现在arXiv上。论文展示了一个名为LPM 1.0的视频模型。请注意它的全称:Large Performance Model。关键词是“Performance”(表演),而非我们更熟悉的“Language”(语言)。
这个拥有170亿参数的扩散Transformer模型,能让一个AI角色在视频中说话、倾听、做出细腻的微表情,并且保持身份一致性持续“表演”下去,理论上时长不受限制。简而言之,它是一个专门为了让虚拟角色“活过来”而设计的视觉引擎。
许多人的第一反应,是将其与Sora、Seedance等视频生成模型进行比较。但如果仅仅把它看作一个视频模型,视野就窄了。
对Anuttacon团队稍有了解的人会知道,这并非一个纯粹的初创团队,其背后的领军人物,正是米哈游的创始人蔡浩宇。
LPM 1.0模型真正值得玩味之处,或许不在于它本身实现了什么,而在于它隐约揭示出蔡浩宇正在搭建的一个更宏大的技术栈——一个有可能替代传统游戏引擎的全新架构。
不过,在探讨那个更大的图景之前,我们有必要先厘清一个基本问题:为什么这个模型被命名为“表演模型”,而不是“视频生成模型”?这个命名本身,就隐含着一个关键的技术判断。
为什么叫“表演”,不叫“生成”?
现有的主流视频生成模型,其本质是一个“给定输入,输出完整片段”的过程。你提供一段文字描述,它生成一段5秒或10秒的视频。这个过程更像传统的电影制作——先有完整的剧本,再一次性渲染出所有画面。
但LPM 1.0的逻辑截然不同。它的核心设计场景是实时对话:想象一个角色坐在你对面,当你开始说话时,它在你话音未落之际就已经开始产生反应。不是等待你的语句结束,也不是等待系统处理完语义再输出一段动画,而是在你的语音输入仍在进行时,角色就已经在同步地倾听、点头、皱眉或微笑了。
这才是“表演”一词的真正内涵。表演的本质在于反应,而反应的核心在于实时性。
一个好的演员在演对手戏时,绝不会等到对方念完所有台词才开始“表演”。他在聆听的过程中,眼神的流转、呼吸的节奏、嘴角的细微牵动,早已在传递信息。LPM 1.0瞄准的正是这种能力——它不是一个“读完剧本再演”的系统,而是一个“在对话流中即时反应”的系统。
论文中将这种能力称为“全双工对话”。模型同时支持“说”和“听”两种模式:当角色说话时,它会根据合成语音生成对应的口型、表情和动作;当角色聆听时,它会根据用户的语音实时生成倾听反应,包括点头、眨眼和表情变化。两种模式能够自然流畅地切换,如同真人交谈。
这一选择背后,代表的技术思路与通用视频生成模型分道扬镳。Sora、Seedance等模型追求的是画面质量的极致与场景的多样性——能生成多逼真、多丰富的视觉内容。而LPM追求的是交互过程中的真实感——角色能否在持续的信息流中,给出即时的、连贯的、符合当下语境的反应。
说得更直白些,前者是在制作“电影”,而后者是在创造“活人”。
这也解释了为何LPM 1.0如此看重实时推理能力。论文中提出的“表演三难困境”将实时性与表现力置于同等重要的位置,原因正在于此:即便表情渲染得再精致,如果反应延迟了两秒,那种“活着”的沉浸感便会瞬间瓦解。
一个被忽略的关键信号
外界对LPM 1.0的讨论,大多聚焦于视频生成的技术细节。但从公开信息拼凑出的图景来看,一个被多数人忽略的事实是:蔡浩宇在Anuttacon主导的核心方向,很可能并非视频生成,而是大语言模型。
线索其实不少。Anuttacon的招聘页面长期挂着预训练、后训练、智能体等与大语言模型密切相关的岗位。团队核心成员吴箫剑曾参与Meta的Llama 3.1研究,在Anuttacon担任大模型研究负责人。今年4月,蔡浩宇还与刘伟、罗宇皓共同向上海交通大学捐赠,设立了名为“AI未来基石”的基金。
更直接的信号来自米哈游联合创始人刘伟。他在上海交通大学的一次公开活动中,罕见地阐述了蔡浩宇创立Anuttacon的逻辑:米哈游作为一家拥有六七千人的大型公司,存在一定的组织惰性,不利于从零开始进行碘伏性的AI创新。因此,几年前决定由蔡浩宇亲自下场,以小型精锐团队的模式推进AI研发。刘伟还透露了一个关键信息:他们的目标是从基础预训练开始,开发一种“有情感的大语言模型”,不仅追求智能水平,更要能理解人类的情感诉求。
将这一信息与LPM 1.0放在一起审视,逻辑链条便清晰起来。LPM 1.0论文中写得明白:这个视频模型可以与ChatGPT、豆包等音频对话模型即插即用地组合使用,它自身不负责决策,只专注于视觉呈现。
换言之,LPM是一个“表演层”,但它需要一个“大脑”来指挥角色该说什么、该如何反应。这个大脑,正是大语言模型。没有强大的基座语言模型支撑,LPM就只是一个精美的空壳。
“语言模型+表演模型”=下一代游戏引擎?
理解了这一架构,便能窥见蔡浩宇真正在谋划的事情。
传统游戏引擎如Unity和Unreal,解决的核心问题是:如何高效地渲染3D世界、模拟物理系统、处理玩家输入。游戏中的角色行为完全由开发者预设——对话是编写好的分支树,动作是制作好的动画片段,表情是通过骨骼权重绑定的结果。
蔡浩宇试图用AI替换掉这整套流程。在他构想的架构中,语言模型负责角色的“思考”——理解玩家的意图、决定如何回应、并维持角色人格的一致性;表演模型则负责角色的“表达”——将语言模型的决策实时转化为可见的视频画面,包括口型、表情、肢体动作和情绪变化。
这并非在现有引擎上简单地添加一个AI插件,而是试图用AI从底层重建角色生成的整个链路。
LPM 1.0论文中提出了“表演三难困境”——高表现力、实时推理和长时身份稳定性,三者难以兼得。团队的解决方案是,先训练一个170亿参数的Base LPM来深入学习表演空间,再将其知识蒸馏到低延迟的Online LPM中,用于实时交互。在推理阶段,还设计了Generator + Refiner的双层渲染管线,第一层快速输出轮廓,第二层精修细节,两层以流水线方式交替工作。
这些技术细节固然重要,但更重要的是它们所指向的终极目标:让一个AI角色能够像真人一样,在任意长的时间内持续、稳定且富有表现力地“存活”下去。

Anuttacon去年发布的AI游戏《星之低语》,可以视为这一思路的早期验证。玩家通过语音和文字与AI角色Stella进行实时对话,没有预设的对话分支选项,角色的反应完全由AI生成。而LPM 1.0要解决的,是让这种交互超越文字和语音,让玩家真正“看到”一个在对面与你交谈、倾听并做出实时反应的角色。
论文中提到的未来规划同样意味深长。作者提出了三个演进方向:在时间维度上,实现更长对话的记忆与人格持续性;在社会维度上,处理多人互动与轮流发言的复杂场景;在物理维度上,将角色的行为锚定到具体的场景和物体上。
论文最后还有一句颇具野心的表述:未来,这种分阶段的流水线,可能会走向统一的“行动者模型”——一个能统一决定角色怎么说、怎么演、如何持续存在的系统。这,不正是一个跨世代“引擎”应该做的事情吗?
蔡浩宇在为什么样的未来造引擎?
拉长时间线来看,蔡浩宇的路径其实相当清晰。2022年,米哈游投资脑机接口公司,并与瑞金医院共建脑病实验室。同年,投资了如今被称为“大模型六小龙”之一的MiniMax。2023年,蔡浩宇卸任米哈游董事长职务。2024年,他创立Anuttacon,团队至今不足40人,却汇聚了前微软亚洲研究院首席研究员童欣、参与过Llama 3研究的吴箫剑、前B站副总裁王宇阳、来自小鹏智算中心的基础设施负责人Erik Li等顶尖人才。
蔡浩宇的大学专业本就是人工智能方向。某种意义上,他绕了一个大圈——从AI到二次元游戏,再从游戏回到AI——最终回到了起点。只不过这一次,他要用AI重新定义那个让他成就辉煌的行业。
刘伟在今年的发言很坦诚,蔡浩宇创办Anuttacon并非“分家”,而是米哈游面对大公司组织惰性所做出的主动战略选择。刘伟留守管理数千人规模的米哈游本体,而蔡浩宇则带领小团队去进行最前沿的技术攻坚。可以说,米哈游相当于拆分出一位创始人,专门面向新世界去打造引擎。
当然,这一切都只是开始。LPM 1.0目前仍是一篇学术论文,团队已明确表示不会开源模型权重,也未提供API或在线演示。从研究到成熟产品,还有很长的路要走。在语言模型方面,Anuttacon的基座模型也尚未有任何公开的基准测试成绩可供参考。
但方向已经相当明确。蔡浩宇押注的是这样一个未来:游戏角色将不再是开发者通过脚本和动画预设的“提线木偶”,而是由语言模型驱动思考、由表演模型实时渲染的“数字生命”。而支撑这一切运转的底层系统,正是他试图构建的那个“新引擎”。
2010年,还在上海交大读研的蔡浩宇与刘伟、罗宇皓一起,用Adobe Flash开发了一款名为Misato的2.5D游戏引擎。16年后,蔡浩宇又在造引擎了。只不过这一次,引擎所驱动的将不再是像素与多边形,而是语言、表演与情感——这些,正是未来AI形象最需要的底层基础。
*头图来源:Anuttacon
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
Perplexity Pages代码报错解决方法 沙箱环境预检与修正指南
Perplexity Pages生成的HTML代码运行报错?五步排查法帮你搞定 当你将Perplexity Pages生成的HTML代码下载到本地运行,浏览器却显示错误信息时,确实令人沮丧。请先别质疑自己的能力,这通常并非你的操作失误。AI生成的代码有时会遗漏Web开发中的一些必要规范,例如缺少标准
精准控制Claude输出格式的提示词技巧
想要精准控制Claude的输出格式,确保生成内容结构严谨、无冗余信息?这确实是许多开发者和内容创作者在利用AI辅助工作时遇到的核心痛点。Claude虽然功能强大,但有时其“自由发挥”的特性会导致输出包含不必要的解释或偏离预设框架。无需担忧,掌握以下五个核心技巧,就能像为Claude设定精确指令集一样
零成本接入ToClaw本地模型运行心跳任务方案
想在本地运行OpenClaw并接入自己的大模型,同时又不花一分钱维持心跳任务持续激活?核心思路很明确:绕开依赖云端API的默认心跳机制,充分利用本地已有的计算和硬件资源,实现自主唤醒。下面这几种方法,各有适用场景,你可以根据自己的部署环境对号入座。 一、基于FreeRTOS SysTick的裸机心跳
如何优化文章标题以提升搜索排名与点击率
调用Qwen-VL等多模态大模型时,账单费用偶尔会超出预算,这通常不是模型定价过高,而是图文联合输入产生的Token叠加效应所致。简单来说,处理一张图片加一段文本的成本,远高于两者单独计费之和。要有效控制Qwen-VL API调用成本,关键在于深入理解其计费机制并实施针对性优化策略。以下五个步骤,将
HermesAgent连接Telegram教程:手机端获取BotToken实现远程控制
必须先获取Telegram BotToken才能连接HermesAgent实现手机远程控制:一、通过BotFather创建Bot并获取Token;二、在HermesAgent配置中填入该Token;三、在手机Telegram中搜索并对话Bot验证连通性;四、启用控制权限、添加授权用户ID并绑定指令映
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

