从「片段生成」到「长视频漫游」：OmniRoam探索轨迹可控的长视频生成新范式

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

业界动态

从「片段生成」到「长视频漫游」：OmniRoam探索轨迹可控的长视频生成新范式

热心网友时间：2026-04-16

转载

从“片段”到“旅程”：OmniRoam如何让AI视频学会“连续行走”

生成式视频技术如今已能轻松炮制出几秒钟的惊艳片段，但一个更深层、也更棘手的挑战正浮出水面：如何让AI生成一段能“走”得更远、更稳的长视频？

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

问题就出在“时间”上。当视频从几秒延伸到几十甚至上百秒，视角的连续变化和时间的不断推移，会像一场无声的侵蚀，导致画面结构漂移、内容前后矛盾。结果就是，视频常常“走着走着就散了架”，在空间和时间两个维度上都难以维持稳定。

与此同时，另一个实际需求变得迫切：我们能否像设定导航路线一样，精确控制视频内容的演化路径？

最近，来自加州大学欧文分校、加州大学圣地亚哥分校、香港城市大学、宾夕法尼亚大学以及Adobe Research的研究团队，共同交出了一份名为OmniRoam的答卷。这项研究瞄准的，正是轨迹可控的长视频生成。

论文标题：OmniRoam: World Wandering via Long-Horizon Panoramic Video Generation

项目主页：https://yuheng.ink/project-page/omniroam/

文章链接：https://arxiv.org/pdf/2603.30045

代码链接：https://github.com/yuhengliu02/OmniRoam

这项工作的核心思路颇为巧妙：它引入全景视频作为一种统一的表示方法，并结合了一套“由粗到精”的分阶段生成框架。这套组合拳，在长时序条件下显著提升了视频的空间一致性与时间连贯性，使得模型能够沿着指定路径生成连续演化的视频序列。可以说，这是从“片段生成”迈向“连续过程生成”的关键一步。

一、先画路线图：轨迹可控的视频预览

OmniRoam的第一步，是生成一个中等分辨率的全景视频“预览”。这就像在动工前先画一张设计蓝图，目的是确定整体的运动路径和场景结构。

这里的核心创新，在于将相机轨迹拆解为两个直观的控制量：flow（流向）和scale（步长）。前者刻画运动方向，后者控制每一步的移动幅度。这种拆解让轨迹建模变得更加清晰可控。在技术实现上，模型将起始画面与目标视频在时间维度上拼接，并通过flow和scale这两个条件进行调制。这样一来，生成过程既能保持内容的连续性，又受到了明确路径的约束。

二、精雕细琢：从预览到高质量长视频

有了全局预览作为骨架，OmniRoam便进入第二阶段——长时序细化生成。由于预览阶段通常采用较大的scale（类似于“快进”播放），细化阶段会通过scale对齐，将视频扩展为更长、速度更接近真实世界的序列。

这个阶段的一个关键设计是visibility mask（可见性掩码）：在每个时间段，只选取少量的预览帧作为条件输入。这样做的好处是，既保留了关键的结构锚点，又避免了信息冗余。随后，模型对各个片段进行高分辨率生成，最终拼接成完整的长视频。这种“全局预览，局部细化”的策略，有效缓解了长序列生成中误差累积的顽疾。

三、为新任务铺路：数据集与评测基准

为了支撑这项全新的任务，研究团队构建了专门的数据集与评测体系。在表示层面，文章定义了一个标准全景坐标系，去除了相机的自旋转，只保留平移运动，从而简化了轨迹建模的复杂度。

数据方面则采用了“虚实结合”的策略：真实的全景视频提供了丰富的场景多样性，而合成的数据则提供了精确的轨迹监督。通过路径规划算法，确保了所有运动轨迹的合理性。在评测上，团队提出了一个巧妙的闭环一致性指标：要求模型生成的视频在沿着一个闭环路径“行走”一圈后，不仅能回到起点，还要保持中间过程的合理变化。这个指标更能衡量长时序下的空间一致性。

四、实验结果：一致性与可控性双提升

实验数据表明，OmniRoam在画质、轨迹控制和长时序一致性上均超越了现有方法。

定性来看，模型能够稳定地沿着指定路径生成连续视频，结构漂移和内容崩塌的现象被显著抑制。定量指标（如FAED、SSIM、LPIPS及闭环一致性）也一致显示其更优的性能。

深入分析发现，全景表示与两阶段生成设计是性能提升的关键，这让模型即使在生成长视频时也能保持稳定与可控。文章特别对比了在长视频（641帧）条件下，包括自回归生成和基于透视表示方法在内的不同方案的表现。

为了进一步探究长时序一致性，作者设计了一个闭环轨迹实验，并用CLIP图像相似度来衡量模型能否“走回原点”。理想情况下，随着相机逐渐远离起点，相似度应逐步下降；而当轨迹完成闭环时，相似度应重新上升。实验结果正如所料：相似度曲线在中段下降，在末尾重新回升，这有力地证明了模型具备了较强的长期空间记忆能力。

五、不止于生成：从实时预览到3D场景

除了核心的长视频生成能力，OmniRoam还展示了其在效率与3D任务上的扩展潜力。

在效率方面，作者基于self-forcing机制，将完整模型蒸馏为一个轻量级的自回归预览模型，实现了接近实时的视频生成。这个轻量模型在保持整体场景结构的同时，能在约7秒内生成81帧全景视频，相比原始模型速度大幅提升，为交互式应用打开了大门。同时，框架还支持先生成低分辨率视频，再通过细化模块提升至高分辨率（如720p）的灵活工作流。

在3D应用方面，OmniRoam生成的长视频可以直接作为3D场景重建的优质输入。研究者从生成视频中均匀采样关键帧，并提取多个透视视角，输入到3D Gaussian Splatting（3DGS）管线中进行重建。结果表明，生成视频在不同视角间保持了良好的一致性，能够重建出结构连贯的3D场景。

这些发现意味着，OmniRoam不仅可以作为长视频生成器，还能作为上游模块，为实时交互应用与3D内容构建提供强有力的支持。