D视频版Sora正式发布

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI教程

D视频版Sora正式发布

热心网友时间：2026-07-03

转载

仅需40秒即可生成3D视频：Stability AI发布首个开源视频生视频模型

只需输入一段单个物体的视频，便能获得任意拍摄角度下的全视图3D动态视频——这项原本颇具科幻色彩的技术，如今已通过开源方式成为现实。

智东西7月25日消息，当地时间7月24日晚间，AI独角兽Stability AI正式发布了其首款视频到视频（video-to-video）生成模型——Stable Video 4D（SV4D）。该模型的功能非常直观：输入单个物体的视频，即可生成8个不同视角的全新视频，用户可以根据需要指定任意摄像机角度进行观看。

▲全视角视频输出示例

目前，SV4D单次推理仅需约40秒即可生成8个视角各5帧的视频，而完整的4D优化流程大约需要20至25分钟。该模型已在Hugging Face平台开源，适用于游戏开发、视频编辑、虚拟现实（VR）等多个场景，且支持免费用于研究及非商业用途。

与此同时，SV4D的技术论文也一同发布，研究团队由Stability AI与东北大学的学者共同组成，论文详细阐述了模型的框架结构、优化策略、评估结果等内容。

▲SV4D技术论文

自2019年成立以来，Stability AI始终专注于文本、图像、音频、视频等多模态领域的开源模型研发，并于2022年成功跻身独角兽行列。尽管自去年起经历了寻求收购、核心技术人员离职、CEO卸任等一系列波折，但这并未影响其持续开源新模型的步伐。

今年6月，在负债累累的背景下，Stability AI获得了前Facebook总裁Sean Parker等投资者提供的8000万美元融资，并迎来了新任CEO——前维塔数码（Weta FX）负责人Prem Akkaraju。Akkaraju上任仅一个月内，便连续发布了聊天机器人Stable Assistant、音频生成模型Stable Audio Open，以及此次的SV4D。

01. 基于SVD打造4D框架，40秒内生成多视角视频

SV4D主要应用于3D模型的多视角视频生成。输入为单个物体的单视角视频，输出则是同一物体8个不同角度的多视角视频。

该模型以图生视频模型Stable Video Diffusion（SVD）为基础，实现了从图生视频到视频生视频的能力跃升。具体运行时，用户先上传一段视频，再指定所需的摄像机角度，SV4D便会根据选定视角生成8个新视角视频，从而提供拍摄对象全面、多角度的视图。生成的视频可用于优化拍摄对象的动态表示，广泛应用于游戏开发、视频编辑、VR等场景。

▲SV4D输入与输出

目前SV4D仍处于研究阶段，能在约40秒内生成8个视角各5帧的视频，整个4D优化流程大约需要20至25分钟。

以往用于多视角视频生成的方法，通常需要从图像扩散模型、视频扩散模型和多视图扩散模型的组合中分别采样，而SV4D能够同时生成多个新视图视频，大幅提升了空间和时间轴的一致性。此外，该方法还能实现更轻量的4D优化框架，无需像过去那样使用多个扩散模型进行繁琐的分数蒸馏采样。

▲SV4D与其他方法对比

与其他方法相比，SV4D能生成更丰富多样的多视图视频，且细节更丰富、更忠实于输入视频，在帧与视图之间保持高度一致性。

SV4D是Stability AI推出的首个视频到视频生成模型，已在Hugging Face上开源发布。Stability AI表示，团队仍在积极完善该模型，目标是使其能够处理更广泛的现实世界视频，而不仅限于用于训练的合成数据集。

02. 混合采样保持时间一致性，4D生成全面超越基准线

SV4D的技术论文同步发表，其中详细解读了模型的框架结构。

总体而言，SV4D是一个用于生成动态3D对象新视图视频的统一扩散模型。给定一个单目参考视频，SV4D为每个视频帧生成在时间上一致的新视图，然后利用生成的新视图视频高效优化隐式4D表示，无需依赖基于分数蒸馏采样的优化。

▲SV4D框架概述及生成的4D资产

SV4D的模型结构如下图所示。基于相机条件，SV4D将相机视点的正弦嵌入传递给UNet中的卷积块，并在空间和视图注意力块中，使用输入视频进行交叉注意力条件设定。为提高时间一致性，SV4D引入了一个额外的运动注意力块，并以第一帧的相应视图为交叉注意力条件。

▲SV4D模型结构

为了在保持时间一致性的同时扩展生成的多视图视频，研发团队在推理过程中提出了一种新颖的混合采样策略。首先，SV4D采样一组稀疏的锚定帧，然后将锚定帧作为新的条件图像，对中间帧进行密集采样/插值。为确保连续生成之间的平滑过渡，SV4D在密集采样期间，交替使用时间窗口内的第一帧前向帧或最后一帧后向帧进行条件设置。