D视频版Sora正式发布
仅需40秒即可生成3D视频:Stability AI发布首个开源视频生视频模型

只需输入一段单个物体的视频,便能获得任意拍摄角度下的全视图3D动态视频——这项原本颇具科幻色彩的技术,如今已通过开源方式成为现实。
智东西7月25日消息,当地时间7月24日晚间,AI独角兽Stability AI正式发布了其首款视频到视频(video-to-video)生成模型——Stable Video 4D(SV4D)。该模型的功能非常直观:输入单个物体的视频,即可生成8个不同视角的全新视频,用户可以根据需要指定任意摄像机角度进行观看。

▲全视角视频输出示例
目前,SV4D单次推理仅需约40秒即可生成8个视角各5帧的视频,而完整的4D优化流程大约需要20至25分钟。该模型已在Hugging Face平台开源,适用于游戏开发、视频编辑、虚拟现实(VR)等多个场景,且支持免费用于研究及非商业用途。
与此同时,SV4D的技术论文也一同发布,研究团队由Stability AI与东北大学的学者共同组成,论文详细阐述了模型的框架结构、优化策略、评估结果等内容。

▲SV4D技术论文
自2019年成立以来,Stability AI始终专注于文本、图像、音频、视频等多模态领域的开源模型研发,并于2022年成功跻身独角兽行列。尽管自去年起经历了寻求收购、核心技术人员离职、CEO卸任等一系列波折,但这并未影响其持续开源新模型的步伐。
今年6月,在负债累累的背景下,Stability AI获得了前Facebook总裁Sean Parker等投资者提供的8000万美元融资,并迎来了新任CEO——前维塔数码(Weta FX)负责人Prem Akkaraju。Akkaraju上任仅一个月内,便连续发布了聊天机器人Stable Assistant、音频生成模型Stable Audio Open,以及此次的SV4D。
01. 基于SVD打造4D框架,40秒内生成多视角视频
SV4D主要应用于3D模型的多视角视频生成。输入为单个物体的单视角视频,输出则是同一物体8个不同角度的多视角视频。
该模型以图生视频模型Stable Video Diffusion(SVD)为基础,实现了从图生视频到视频生视频的能力跃升。具体运行时,用户先上传一段视频,再指定所需的摄像机角度,SV4D便会根据选定视角生成8个新视角视频,从而提供拍摄对象全面、多角度的视图。生成的视频可用于优化拍摄对象的动态表示,广泛应用于游戏开发、视频编辑、VR等场景。

▲SV4D输入与输出
目前SV4D仍处于研究阶段,能在约40秒内生成8个视角各5帧的视频,整个4D优化流程大约需要20至25分钟。
以往用于多视角视频生成的方法,通常需要从图像扩散模型、视频扩散模型和多视图扩散模型的组合中分别采样,而SV4D能够同时生成多个新视图视频,大幅提升了空间和时间轴的一致性。此外,该方法还能实现更轻量的4D优化框架,无需像过去那样使用多个扩散模型进行繁琐的分数蒸馏采样。

▲SV4D与其他方法对比
与其他方法相比,SV4D能生成更丰富多样的多视图视频,且细节更丰富、更忠实于输入视频,在帧与视图之间保持高度一致性。
SV4D是Stability AI推出的首个视频到视频生成模型,已在Hugging Face上开源发布。Stability AI表示,团队仍在积极完善该模型,目标是使其能够处理更广泛的现实世界视频,而不仅限于用于训练的合成数据集。
02. 混合采样保持时间一致性,4D生成全面超越基准线
SV4D的技术论文同步发表,其中详细解读了模型的框架结构。
总体而言,SV4D是一个用于生成动态3D对象新视图视频的统一扩散模型。给定一个单目参考视频,SV4D为每个视频帧生成在时间上一致的新视图,然后利用生成的新视图视频高效优化隐式4D表示,无需依赖基于分数蒸馏采样的优化。

▲SV4D框架概述及生成的4D资产
SV4D的模型结构如下图所示。基于相机条件,SV4D将相机视点的正弦嵌入传递给UNet中的卷积块,并在空间和视图注意力块中,使用输入视频进行交叉注意力条件设定。为提高时间一致性,SV4D引入了一个额外的运动注意力块,并以第一帧的相应视图为交叉注意力条件。

▲SV4D模型结构
为了在保持时间一致性的同时扩展生成的多视图视频,研发团队在推理过程中提出了一种新颖的混合采样策略。首先,SV4D采样一组稀疏的锚定帧,然后将锚定帧作为新的条件图像,对中间帧进行密集采样/插值。为确保连续生成之间的平滑过渡,SV4D在密集采样期间,交替使用时间窗口内的第一帧前向帧或最后一帧后向帧进行条件设置。

▲SV4D模型采样
在框架优化方面,SV4D使用参考多视图图像的第一帧,优化由多分辨率哈希网格以及密度和颜色多层感知机(MLP)表示的静态NeRF,然后解冻时间变形MLP,并使用随机采样的视图和帧来优化动态NeRF。

▲优化框架概述
为了训练统一的新视图视频生成模型,SV4D研发团队从现有的Objaverse数据集中整理了一个动态3D对象数据集。在多个数据集上的实验结果和用户研究表明,与以往工作相比,SV4D在新视图视频合成以及4D生成方面均达到了最先进的性能。

▲ObjaverseDy数据集上4D输出评估
在ObjaverseDy数据集上的4D输出评估中,SV4D在所有指标方面均优于基线,在视觉质量(LPIPS和CLIP-S)、视频帧一致性(FVD-F)、多视图一致性(FVD-V)以及多视图视频一致性(FVD-Diag和FV4D)方面均超越了此前的模型。
03. 结语:Stability AI多模态版图再添新布局
Stability AI以文生图开源模型起家,在文本、视频、3D等多个模态上均有布局。此次开源SV4D,标志着其在3D与视频生成两个方向上实现了共同进展。
尽管该模型目前仍处于前期研究阶段,但其在各指标上表现出的卓越能力以及模型架构上的创新思路,为未来发展开辟了广阔前景。随着模型的迭代与优化,SV4D有望在游戏、VR等更多领域的应用中发挥重要作用。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
批处理BAT入门教程第一篇
提供13个批处理实战技巧,覆盖全盘查找并删除文件夹或文件、拷贝移动文件、创建畸形文件夹及设置隐藏属性等场景,可一键完成系统维护与文件管理工作,极大提升自动化操作效率和便捷性。
从零开始批处理命令For循环详解与实战案例
批处理For命令支持 d、 l、 r、 f四个参数。 d仅列出当前目录下的目录名; r递归搜索指定路径及其子目录中的文件; l生成数值序列; f可解析文件、字符串或命令输出,通过delims、tokens、skip、eol等选项灵活处理内容。
批评你的人是你生命中的贵人
批评你的人往往最值得珍惜,因为他们关注你、助你成长。面对批评应包容反思,用行动改进而非辩解。接受批评是自我完善的过程,能让人少走弯路,避免重复犯错。这样的人正是生命中的贵人,值得感恩与珍惜。
测试人员角色定位与职责详解
测试人员角色经历了从找问题、保证质量到分析风险的转变,最终核心职责是提供关键信息,协助团队创造优秀产品。这包括识别问题、评估风险及帮助团队了解项目状态,而非单纯把关或追求完美。
经营成功测试生涯的实用方法与策略
一、测试生涯的起点 1989年,我在田纳西大学攻读研究生时,意外地从软件开发人员转行成为一名软件测试工程师。这并非我主动选择,说起来还有些戏剧性——某个早晨,教授质问我为何缺席那么多开发会议,我解释说这些会议总是安排在周末早上,对我这个第一次离家、刚入学的学生来说实在不便。结果呢?等待我的不是解聘通
- 日榜
- 周榜
- 月榜
相关攻略
2026-07-03 16:15
2026-07-03 16:14
2026-07-03 16:14
2026-07-03 16:14
2026-07-03 16:14
2026-07-03 16:14
2026-07-03 16:13
2026-07-03 16:13
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

