百度与新加坡国立大学推出ONE-SHOT技术实现虚拟人真实场景表演

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

百度与新加坡国立大学推出ONE-SHOT技术实现虚拟人真实场景表演

热心网友时间：2026-05-15

转载

当电影特效和虚拟现实技术日益融入我们的生活，一项来自新加坡国立大学与百度的联合研究，正在悄然重塑视频内容创作的边界。这项于2026年4月发表在arXiv预印本平台（编号：arXiv:2604.01043v1）的研究，提出了名为“ONE-SHOT”的创新框架。它的核心目标，是让计算机具备“导演”般的洞察力，能够将真人的动作、表情与环境背景无缝融合，生成高度逼真的动态视频。

新加坡国立大学与百度联手开发ONE-SHOT：让虚拟人物在真实环境中表演成为可能

要理解这项技术的突破性，可以把它看作一种全新的“数字合成术”。传统的视频生成，往往像在搭建一个精密但繁琐的模型——每个部件都需要单独预制，再小心翼翼地拼装组合。而ONE-SHOT的思路则截然不同，它更像一位技艺高超的主厨，能够同时处理多种食材，在保留各自风味的基础上，烹制出一道和谐统一的佳肴。

研究团队要攻克的核心难题，形象地说，好比让一位京剧演员在欧洲古堡中打太极，同时还要确保其服饰、动作与周遭的石墙、光影浑然一体。传统方法为此需要海量的前期数据准备与复杂的3D重建，过程如同为做一道菜而先建造一座厨房，效率低下且极易扼杀创造性。过度依赖预处理，往往会让整个系统变得僵化，失去灵活应变的能力。

ONE-SHOT的巧妙之处，在于它采取了一种“分而治之，协同作战”的策略。这就像一位卓越的乐团指挥，能让小提琴、大提琴与铜管声部各司其职又完美共鸣。该系统将视频生成的三大要素——人物动作、环境背景与摄像机运动——进行解耦处理，再通过精妙的机制将它们重新组合。

三大技术突破：构建智能“导演”的核心能力

研究的创新性，具体体现在三个关键的技术突破上。

首先是“标准空间动作注入”机制。这相当于为虚拟演员提供了一个通用的“排练舞台”。无论最终要在何种复杂环境中表演，演员都可以先在这个标准化舞台上演练动作。随后，系统能将这些动作精准地“移植”到目标场景中，有效避免了传统方法中常见的动作与环境不匹配的“违和感”。

其次是“动态基础旋转位置编码”技术。这个听起来复杂的名词，实际功能类似于一个智能的“空间翻译官”。当标准舞台上的动作需要映射到真实环境时，它能动态调整空间坐标的对应关系，确保每个转身、每次跳跃在新场景中都显得自然合理，解决了视角与位置同步的难题。

第三个突破是“混合上下文集成”机制。可以理解为给系统配备了两套记忆系统：一套是专注于记录演员面部特征、外貌细节的“短期记忆”；另一套是负责追踪整个视频序列中环境与人物状态演变的“长期记忆”。双管齐下，确保了即便是长达数分钟的视频，其前后内容也能保持高度一致性。

技术实现：站在巨人肩膀上的高效创新

在工程实现上，ONE-SHOT采用了一种高效的“学徒式”训练路径。研究团队并未从零开始构建模型，而是以成熟的Wan2.1视频生成模型为基础进行改进与增强。这好比一位老师傅带领已有功底的徒弟，只需传授几门关键的新绝技，而非从头教授基本功，从而在极大提升开发效率的同时，继承了原有模型强大的内容生成能力。

该系统的工作流程，可以类比为执导一部微型舞台剧。首先，作为“导演”的系统会根据“剧本”（即文本提示）来选择和搭建“舞台”（三维场景）。接着，“演员”（虚拟人物）会按照编排好的“动作序列”进行表演。其强大之处在于，它能轻松实现“一人多景”或“多人同景”的灵活编排，极大地拓展了创作自由度。

为了训练出这位全能“导演”，研究团队投喂了多元化的数据“营养餐”。这包括包含动态摄像机运动的EMDB2数据集、专注于人体动作的MotionX子集、提供丰富3D环境信息的ARKitScenes数据集，以及从公开网络收集的视频资源。这种跨领域、多模态的训练方式，赋予了系统强大的泛化能力与创造性。

实验验证：性能与效果的全面领先

为了检验成果，团队进行了两类核心测试。一类是“还原测试”，要求系统根据给定条件复现现有视频，考验其控制的精确性；另一类是“创意组合测试”，要求系统将从未同时出现的人物、动作和环境进行新颖合成，评估其创造与泛化能力。

实验结果颇具说服力。在衡量视觉质量的关键指标上，ONE-SHOT取得了FID分数16.88和FVD分数181.17的成绩，显著优于其他主流方法。更重要的是，在动作流畅度、背景一致性、人物身份保持等多个维度的综合评估中，ONE-SHOT都展现出了更优的平衡性。它不像某些“偏科”的模型，而是在各项能力上都达到了高水准。

特别值得称道的是，ONE-SHOT还保留了强大的文本驱动编辑能力。用户通过简单的文字指令，就能对视频元素进行创意替换，例如将普通人变为卡通角色“哆啦A梦”，或将一只狗替换成发光的小龙。这证明其在增强控制力的同时，并未牺牲原始模型天马行空的想象力。

面对长视频生成的行业难题，ONE-SHOT也交出了不错的答卷。凭借其混合记忆机制，它能够生成长达数分钟且内容连贯的视频，突破了传统方法多局限于十几秒的瓶颈，让生成一个完整叙事片段成为可能。

此外，通过一系列的“消融实验”，研究团队逐一验证了每个核心技术组件的必要性。当移除了动态位置编码功能后，生乘人物的动作会出现明显的偏移和失调；当关闭面部参考信息时，人物在长视频中的身份特征便难以维持。这些实验有力地证明了，框架中的每一个设计都不可或缺。