VerseCrafter - 复旦联合腾讯开源的动态真实视频世界模型

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

业界动态

VerseCrafter - 复旦联合腾讯开源的动态真实视频世界模型

热心网友时间：2026-04-22

转载

VerseCrafter是什么如果说现在视频生成模型的比拼，已经从“能否生成”进化到了“如何精确控制”，那么刚刚亮相的VerseCrafter，无疑是往前跨了一大步。这支由复旦大学与腾讯PCG ARC Lab等机构联手推出的动态真实视频世界模型，核心卖点在于其强大的4D几何控制能力。简单来说，它不

VerseCrafter是什么

如果说现在视频生成模型的比拼，已经从“能否生成”进化到了“如何精确控制”，那么刚刚亮相的VerseCrafter，无疑是往前跨了一大步。这支由复旦大学与腾讯PCG ARC Lab等机构联手推出的动态真实视频世界模型，核心卖点在于其强大的4D几何控制能力。简单来说，它不再让你被动等待AI“抽卡”出视频，而是让你能像导演一样，对镜头视角和画面中物体的运动轨迹进行精细编排。

模型之所以能做到这一点，离不开其背后的“养料”——大规模的真实世界数据集VerseControl4D。在这个数据海洋里训练出来的VerseCrafter，处理起复杂的动态场景时，能保持惊人的时空一致性。用户只需事先规划好想要的相机路径和物体运动目标，模型就能交出一段几何连贯、画质上乘的动态视频。这种能力一出现，几乎立刻让人联想到它在影视、游戏乃至虚拟现实等领域即将掀起的波澜。

VerseCrafter的主要功能

VerseCrafter提供的控制维度相当丰富，可以说是将视频生成的“方向盘”和“操控杆”都交到了用户手上。具体来看，其功能可以概括为以下几个核心点：

4D几何控制：这是模型的看家本领。用户不仅能为摄像机规划运动路径，还可以为多个目标物体指定基于3D高斯的运动轨迹。这意味着，你能同时指挥“镜头怎么走”和“画面里的东西怎么动”，实现了对视频视角与内容的双重精确掌控。
灵活的控制模式：它支持多种“驾驶模式”。你可以只控制相机，获得一段纯粹的运镜视频；也可以只控制特定目标，让物体在固定镜头中自主运动；当然，更可以将两者结合，实现相机与目标协同的复杂动态叙事。不同场景，按需切换。
高质量视频生成：控制得精细，不代表画面就得打折。VerseCrafter在响应用户指令的同时，依然保持了高度的视觉真实感，并严格确保了生成视频在几何上的连贯性，有效避免了画面扭曲或物体变形等常见失真问题。
多视角一致性：模型能从不同角度生成同一场景的内容，并且保证这些内容在逻辑和外观上是一致的。这个特性对于需要多人交互或360度观察的虚拟场景构建来说，价值不言而喻。
大规模数据支持：功能强大的底层原因，在于其训练所依托的VerseControl4D数据集。这个数据集涵盖了丰富的动态与静态场景，为模型提供了海量的几何监督信号，从而练就了出色的泛化能力，面对各种指令都能沉稳应对。

VerseCrafter的技术原理

VerseCrafter能做到如此程度的控制，并非从零开始造轮子，而是在巨人肩膀上的一次精巧升级。其技术架构清晰而高效：

冻结的Wan2.1主干网络：模型选择了一个高性能的预训练模型——Wan2.1作为其基础。这样做的好处是，直接继承了Wan2.1强大的视频生成能力和泛化性能。整个过程中，Wan2.1的参数是“冻结”的，即不被更新，好比一个经验丰富的画师已经就位。
GeoAdapter：那么控制信号如何传递给这位“画师”呢？这就需要模型中的关键创新模块——GeoAdapter（几何适配器）了。这个轻量级模块就像一位翻译官，将用户输入的4D控制信号（相机和3D高斯轨迹）编码成一种特殊的“多通道地图”。然后，再把这个“地图”巧妙地注入到Wan2.1的各个扩散块中，从而在不改动画师基本功的前提下，精准地引导他作画。
4D控制信号渲染：用户的轨迹指令并不会直接被模型理解。系统会先将相机轨迹和目标轨迹分别渲染成背景的RGB/深度图，以及3D高斯轨迹图。这些渲染后的图像，才是模型能够“读懂”并作为生成条件的最终输入信号。
VerseControl4D数据集：所有技术的落地都离不开数据。团队构建的这个大规模数据集，从真实世界视频中反推出相机和物体的运动轨迹，为模型训练提供了海量且高质量的“标准答案”。正是这些数据，教会了模型如何将抽象的轨迹指令，转化为符合物理规律的、一致的动态画面。

VerseCrafter的项目地址

对于想要深入了解甚至动手尝试的研究者和开发者来说，以下这些官方资源是必看的入口：

项目官网：https://sixiaozheng.github.io/VerseCrafter_page/（这里通常有最直观的介绍、演示视频和效果展示）
GitHub仓库：https://github.com/TencentARC/VerseCrafter（开源代码、使用说明和更新日志都在这里）
HuggingFace模型库：https://huggingface.co/TencentARC/VerseCrafter（可以便捷地在线体验或获取预训练模型）
arXiv技术论文：https://arxiv.org/pdf/2601.05138（所有技术细节和实验数据，一网打尽）

VerseCrafter的应用场景

拥有这般能力的VerseCrafter，其应用前景确实相当广阔，几乎能触及所有需要动态视觉内容的领域：

虚拟现实（VR）和增强现实（AR）：构建沉浸式虚拟世界的核心挑战之一就是内容的动态生成与交互。VerseCrafter可以按用户意图实时生成可探索的场景，通过控制相机和物体运动，极大提升虚拟世界的真实感和交互自由度。
游戏开发：无论是生成复杂的动态背景，还是设计游戏中物体的特定运动轨迹，都可以借助此模型快速原型甚至直接生产内容，能显著优化视角切换效果，并降低手动制作动画的成本。
视频内容创作：对广告、短片、电影及动画的创作者而言，它成了一个强大的创意工具。以往需要复杂3D建模和动画渲染才能实现的镜头，现在可能通过文本描述结合轨迹控制就能快速生成，大大提升了创作效率。
教育与培训：可以创建高度逼真的历史场景重现、科学现象模拟或操作流程演示。学生不再是旁观者，而是可以通过控制视角深入“进入”场景，这种浸入式学习体验无疑能大幅提升参与度和理解深度。
娱乐与媒体：互动影视内容正成为新趋势。VerseCrafter可用于开发“选择式”剧情视频，观众不仅能决定剧情分支，甚至可以通过控制观看视角和关注焦点来改变叙事体验，开创全新的娱乐形式。