Rolling Forcing技术:用AI生成分钟级长视频的实用指南
Rolling Forcing 成功突破了实时长视频生成领域的不可能三角,在保持 16 fps 实时生成速度的同时,显著降低了长序列生成中的误差累积,实现了分钟级别的高质量视频流生成,为交互式世界模型、神经游戏引擎等应用提供了底层支撑。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
本项研究由南洋理工大学与腾讯 ARC 实验室联合完成。论文的第一作者为南洋理工大学博士生刘坤昊。本文的通讯作者为 ARC 实验室资深研究员胡文博和南洋理工大学教授 Shijian Lu。
AI 能够实时拍摄长片了吗?
想象一下这样的场景:你正在玩一款开放世界游戏,角色在无缝衔接的环境中自由漫游,而游戏引擎必须实时生成一条无限长的视频流来呈现这个世界。或者,当你戴着 AR 眼镜走在街头,系统需要根据你的视线与动作,即时生成与环境交互的画面。无论是哪种应用场景,都对 AI 提出了相同的核心要求——能够实时生成高质量、长时间连贯的视频流。
然而,这正是当前 AI 视频生成面临的核心瓶颈。现有模型在几秒钟的短视频片段中表现尚可,但当生成时间持续延长时,各种问题会像滚雪球般不断放大。这种现象被称为误差累积,就像“传话游戏”中信息层层失真,每一帧的微小误差都会被后续帧继承、放大,最终导致画面崩溃——出现色彩漂移、动作僵硬、主体变形等问题。视频越长,这些问题就越严重。
来自南洋理工大学与腾讯 ARC 实验室的研究团队提出了一种全新的实时视频生成方法:Rolling Forcing。它通过三大创新设计——滚动窗口联合降噪、注意力锚点机制以及高效训练算法——实现了“边生成边修正”的创新思路,从而在单张 GPU 上实现了分钟级别视频的实时生成。

论文链接:https://arxiv.org/abs/2509.25161项目主页:https://kunhao-liu.github.io/Rolling_Forcing_Webpage/代码仓库:https://github.com/TencentARC/RollingForcingHuggingface:https://huggingface.co/TencentARC/RollingForcing

研究背景:实时长视频生成的“不可能三角”

实时长视频生成面临着一个经典的“不可能三角”困境:高质量、一致性和实时性三者难以兼顾。其核心挑战可分解为以下三个方面:
实时性要求模型必须顺序生成,严格遵循时间序列输出每一帧,且每帧延迟极低。这使得规划生成等非顺序方法无法适用于流式场景。尽管预测关键帧再插值能减少误差累积,但其乱序生成不适用于实时场景。消除误差累积与保持一致性构成两难困境:在自回归生成过程中,每一帧的微小误差都会像滚雪球般被后续帧继承放大,导致长期漂移。为缓解此问题,历史腐蚀通过噪声注入降低对历史的依赖,然而却牺牲了帧间连贯性,会导致帧间抖动和长期漂移问题。自回归逐帧生成的局限:Self Forcing 等方法虽满足实时流式要求,但其严格因果性使模型无法修正历史错误,导致误差随视频延长而累积,最终引发画面崩溃。
方法核心:Rolling Forcing 如何实现“边生成边修正”
既然现有方法在高品质、一致性和实时性这个困境中难以突破,Rolling Forcing 的研究动机就很明确:能否在严格遵循流式顺序的前提下,赋予模型一种“前瞻性”的局部修正能力?其答案是一个巧妙的“滚动窗口”思想。
它将视频生成从一种严格的串行因果过程,转变为一个滑动窗口内的并行协作过程。这就好比将传统工业上一步接一步、误差会逐级放大的串行流水线,升级为一个并行工作站。工作站内的成员可以相互沟通、协同修正,从而在保持产出节奏的同时,显著提升了成品的一致性。与质量。

具体而言,Rolling Forcing 通过三项关键设计实现了实时长视频生成的突破:
1. 滚动窗口联合降噪:Rolling Forcing 采用滑动窗口进行多帧联合优化,在单次前向传播中同时处理一个包含多帧的窗口,窗口内各帧通过双向注意力机制进行相互校准。每完成一次处理,窗口向前滑动:输出首帧作为最终结果,并引入新噪声帧作为窗口末端输入,实现连续流式生成。
2. 注意力锚点机制保障长期一致性:为解决长视频生成中的漂移问题,Rolling Forcing 引入了注意力锚点机制。该机制将初始生成帧作为全局锚点进行持久化缓存,在生成后续所有帧时,模型均能访问这些初始锚点信息,从而有效维持视频的长时期视觉属性一致性。
3. 高效训练算法缓解曝光偏差:Rolling Forcing 设计了一种基于非重叠窗口的高效蒸馏训练算法。该算法在训练过程中使模型使用自身生成的历史帧而非真实数据,有效模拟了推理时的真实场景。
实验结果:实现高质量长视频生成与交互控制
定量结果:显著降低误差累积,实现实时生成

如表示所示,Rolling Forcing 在多项关键指标上超越了现有主流方法。其最突出的优势体现在长期一致性上:衡量视频质量漂移的关键指标 ΔDriftQuality 远低于对比模型,这证明其有效抑制了长视频生成中的误差累积。同时,该方法在单张 GPU 上达到了 16 fps 的生成速度,实现了实时生成,为交互式应用奠定的基础。
定性对比:多分钟生成仍保持高保真度

在长视频生成的定性比较中,Rolling Forcing 的优势更为直观。在长达 2 分钟的生成过程中,对比模型普遍出现了明显的色彩偏移、细节退化或主体变形,而 Rolling Forcing 生成的内容在细节、色彩和运动连贯性上均保持了高度稳定。

交互式视频生成:动态引导内容创作

Rolling Forcing 的另一项核心能力是支持交互式视频流生成。在视频流生成过程中,用户可以随时改变文本提示词,模型能够根据新指令调整后续生成内容,实现内容的无缝切换与引导。

总结与未来挑战
Rolling Forcing 成功突破了实时长视频生成领域的不可能三角,在保持 16 fps 实时生成速度的同时,显著降低了长序列生成中的误差累积,实现了分钟级别的高质量视频流生成,为交互式世界模型、神经游戏引擎等应用提供了底层支撑。
尽管取得了突破性进展,以下方向仍值得进一步探索:
1. 记忆机制优化:当前方法仅保留初始帧和近期帧的上文内容,生成过程中段的内容会被丢弃。未来需要探索更高效的长期记忆机制,实现对视频中段关键信息的动态保存与召回。
2. 训练效率提升:大窗口注意力和 DMD 损失计算导致训练成本较高。未来可以在不牺牲性能的前提下降低计算复杂度,将模型扩展到更大规模。
3. 交互延迟优化:滚动窗口机制在提升质量的同时会引入微量延迟。针对需要极低延迟的交互场景,需要开发更灵活的推理策略。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
逼AI当山顶洞人!Claude防话痨插件爆火,网友:受够了AI废话
新智元报道编辑:元宇【新智元导读】一个让AI像原始人一样说话的插件,在HN上一夜爆火,冲破2w星。它的核心只是一条简单粗暴的prompt:删掉冠词、客套和一切废话,号称能省下75%的输出token。
季度利润翻 8 倍,最赚钱的「卖铲人」财报背后,内存涨价狂潮如何收场?
AI 时代最赚钱的公司,可能从来不是做 AI 的那个。作者|张勇毅编辑|靖宇淘金热里最稳赚的人,从来不是淘金的,是卖铲子的。这句老话在 2026 年的科技行业又应验了一次。只不过这次卖铲子的不是英伟
Claude Code Harness+龙虾科研团来了!金字塔分层架构+多智能体
Claw AI Lab团队量子位 | 公众号 QbitAI你还在一个人做科研吗?科研最难的,从来不是问题本身,而是一个想法从文献到实验再到写作,只能靠自己一点点往前推。一个人方向偏了没人提醒,遇到歧
让离线强化学习从「局部描摹」变「全局布局」丨ICLR'26
面对复杂连续任务的长程规划,现有的生成式离线强化学习方法往往会暴露短板。它们生成的轨迹经常陷入局部合理但全局偏航的窘境。它们太关注眼前的每一步,却忘了最终的目的地。针对这一痛点,厦门大学和香港科技大
美国犹他州启动新试点项目:AI为患者开具精神类药物处方
IT之家 4 月 5 日消息,据外媒 PC Mag 当地时间 4 月 4 日报道,美国医疗机构 Legion Health 在犹他州获得监管批准,启动一项试点项目,允许 AI 系统为患者开具精神类药
- 日榜
- 周榜
- 月榜
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

