当前位置: 首页
AI
Rolling Forcing技术:用AI生成分钟级长视频的实用指南

Rolling Forcing技术:用AI生成分钟级长视频的实用指南

热心网友 时间:2025-11-05
转载

Rolling Forcing 成功突破了实时长视频生成领域的不可能三角,在保持 16 fps 实时生成速度的同时,显著降低了长序列生成中的误差累积,实现了分钟级别的高质量视频流生成,为交互式世界模型、神经游戏引擎等应用提供了底层支撑。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

本项研究由南洋理工大学与腾讯 ARC 实验室联合完成。论文的第一作者为南洋理工大学博士生刘坤昊。本文的通讯作者为 ARC 实验室资深研究员胡文博和南洋理工大学教授 Shijian Lu。

AI 能够实时拍摄长片了吗?

想象一下这样的场景:你正在玩一款开放世界游戏,角色在无缝衔接的环境中自由漫游,而游戏引擎必须实时生成一条无限长的视频流来呈现这个世界。或者,当你戴着 AR 眼镜走在街头,系统需要根据你的视线与动作,即时生成与环境交互的画面。无论是哪种应用场景,都对 AI 提出了相同的核心要求——能够实时生成高质量、长时间连贯的视频流。

然而,这正是当前 AI 视频生成面临的核心瓶颈。现有模型在几秒钟的短视频片段中表现尚可,但当生成时间持续延长时,各种问题会像滚雪球般不断放大。这种现象被称为误差累积,就像“传话游戏”中信息层层失真,每一帧的微小误差都会被后续帧继承、放大,最终导致画面崩溃——出现色彩漂移、动作僵硬、主体变形等问题。视频越长,这些问题就越严重。

来自南洋理工大学与腾讯 ARC 实验室的研究团队提出了一种全新的实时视频生成方法:Rolling Forcing。它通过三大创新设计——滚动窗口联合降噪、注意力锚点机制以及高效训练算法——实现了“边生成边修正”的创新思路,从而在单张 GPU 上实现了分钟级别视频的实时生成。

论文链接:https://arxiv.org/abs/2509.25161项目主页:https://kunhao-liu.github.io/Rolling_Forcing_Webpage/代码仓库:https://github.com/TencentARC/RollingForcingHuggingface:https://huggingface.co/TencentARC/RollingForcing

研究背景:实时长视频生成的“不可能三角”

实时长视频生成面临着一个经典的“不可能三角”困境:高质量、一致性和实时性三者难以兼顾。其核心挑战可分解为以下三个方面:

实时性要求模型必须顺序生成,严格遵循时间序列输出每一帧,且每帧延迟极低。这使得规划生成等非顺序方法无法适用于流式场景。尽管预测关键帧再插值能减少误差累积,但其乱序生成不适用于实时场景。消除误差累积与保持一致性构成两难困境:在自回归生成过程中,每一帧的微小误差都会像滚雪球般被后续帧继承放大,导致长期漂移。为缓解此问题,历史腐蚀通过噪声注入降低对历史的依赖,然而却牺牲了帧间连贯性,会导致帧间抖动和长期漂移问题。自回归逐帧生成的局限:Self Forcing 等方法虽满足实时流式要求,但其严格因果性使模型无法修正历史错误,导致误差随视频延长而累积,最终引发画面崩溃。

方法核心:Rolling Forcing 如何实现“边生成边修正”

既然现有方法在高品质、一致性和实时性这个困境中难以突破,Rolling Forcing 的研究动机就很明确:能否在严格遵循流式顺序的前提下,赋予模型一种“前瞻性”的局部修正能力?其答案是一个巧妙的“滚动窗口”思想。

它将视频生成从一种严格的串行因果过程,转变为一个滑动窗口内的并行协作过程。这就好比将传统工业上一步接一步、误差会逐级放大的串行流水线,升级为一个并行工作站。工作站内的成员可以相互沟通、协同修正,从而在保持产出节奏的同时,显著提升了成品的一致性。与质量。

具体而言,Rolling Forcing 通过三项关键设计实现了实时长视频生成的突破:

1. 滚动窗口联合降噪:Rolling Forcing 采用滑动窗口进行多帧联合优化,在单次前向传播中同时处理一个包含多帧的窗口,窗口内各帧通过双向注意力机制进行相互校准。每完成一次处理,窗口向前滑动:输出首帧作为最终结果,并引入新噪声帧作为窗口末端输入,实现连续流式生成。

2. 注意力锚点机制保障长期一致性:为解决长视频生成中的漂移问题,Rolling Forcing 引入了注意力锚点机制。该机制将初始生成帧作为全局锚点进行持久化缓存,在生成后续所有帧时,模型均能访问这些初始锚点信息,从而有效维持视频的长时期视觉属性一致性。

3. 高效训练算法缓解曝光偏差:Rolling Forcing 设计了一种基于非重叠窗口的高效蒸馏训练算法。该算法在训练过程中使模型使用自身生成的历史帧而非真实数据,有效模拟了推理时的真实场景。

实验结果:实现高质量长视频生成与交互控制

定量结果:显著降低误差累积,实现实时生成

如表示所示,Rolling Forcing 在多项关键指标上超越了现有主流方法。其最突出的优势体现在长期一致性上:衡量视频质量漂移的关键指标 ΔDriftQuality 远低于对比模型,这证明其有效抑制了长视频生成中的误差累积。同时,该方法在单张 GPU 上达到了 16 fps 的生成速度,实现了实时生成,为交互式应用奠定的基础。

定性对比:多分钟生成仍保持高保真度

在长视频生成的定性比较中,Rolling Forcing 的优势更为直观。在长达 2 分钟的生成过程中,对比模型普遍出现了明显的色彩偏移、细节退化或主体变形,而 Rolling Forcing 生成的内容在细节、色彩和运动连贯性上均保持了高度稳定。

交互式视频生成:动态引导内容创作

Rolling Forcing 的另一项核心能力是支持交互式视频流生成。在视频流生成过程中,用户可以随时改变文本提示词,模型能够根据新指令调整后续生成内容,实现内容的无缝切换与引导。

总结与未来挑战

Rolling Forcing 成功突破了实时长视频生成领域的不可能三角,在保持 16 fps 实时生成速度的同时,显著降低了长序列生成中的误差累积,实现了分钟级别的高质量视频流生成,为交互式世界模型、神经游戏引擎等应用提供了底层支撑。

尽管取得了突破性进展,以下方向仍值得进一步探索:

1. 记忆机制优化:当前方法仅保留初始帧和近期帧的上文内容,生成过程中段的内容会被丢弃。未来需要探索更高效的长期记忆机制,实现对视频中段关键信息的动态保存与召回。

2. 训练效率提升:大窗口注意力和 DMD 损失计算导致训练成本较高。未来可以在不牺牲性能的前提下降低计算复杂度,将模型扩展到更大规模。

3. 交互延迟优化:滚动窗口机制在提升质量的同时会引入微量延迟。针对需要极低延迟的交互场景,需要开发更灵活的推理策略。

来源:https://www.51cto.com/article/828884.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
逼AI当山顶洞人!Claude防话痨插件爆火,网友:受够了AI废话

逼AI当山顶洞人!Claude防话痨插件爆火,网友:受够了AI废话

新智元报道编辑:元宇【新智元导读】一个让AI像原始人一样说话的插件,在HN上一夜爆火,冲破2w星。它的核心只是一条简单粗暴的prompt:删掉冠词、客套和一切废话,号称能省下75%的输出token。

时间:2026-04-07 14:55
季度利润翻 8 倍,最赚钱的「卖铲人」财报背后,内存涨价狂潮如何收场?

季度利润翻 8 倍,最赚钱的「卖铲人」财报背后,内存涨价狂潮如何收场?

AI 时代最赚钱的公司,可能从来不是做 AI 的那个。作者|张勇毅编辑|靖宇淘金热里最稳赚的人,从来不是淘金的,是卖铲子的。这句老话在 2026 年的科技行业又应验了一次。只不过这次卖铲子的不是英伟

时间:2026-04-07 14:49
Claude Code Harness+龙虾科研团来了!金字塔分层架构+多智能体

Claude Code Harness+龙虾科研团来了!金字塔分层架构+多智能体

Claw AI Lab团队量子位 | 公众号 QbitAI你还在一个人做科研吗?科研最难的,从来不是问题本身,而是一个想法从文献到实验再到写作,只能靠自己一点点往前推。一个人方向偏了没人提醒,遇到歧

时间:2026-04-07 14:43
让离线强化学习从「局部描摹」变「全局布局」丨ICLR'26

让离线强化学习从「局部描摹」变「全局布局」丨ICLR'26

面对复杂连续任务的长程规划,现有的生成式离线强化学习方法往往会暴露短板。它们生成的轨迹经常陷入局部合理但全局偏航的窘境。它们太关注眼前的每一步,却忘了最终的目的地。针对这一痛点,厦门大学和香港科技大

时间:2026-04-07 14:37
美国犹他州启动新试点项目:AI为患者开具精神类药物处方

美国犹他州启动新试点项目:AI为患者开具精神类药物处方

IT之家 4 月 5 日消息,据外媒 PC Mag 当地时间 4 月 4 日报道,美国医疗机构 Legion Health 在犹他州获得监管批准,启动一项试点项目,允许 AI 系统为患者开具精神类药

时间:2026-04-07 14:30
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程