慕尼黑大学AI仅凭动作预测视频速度提升万倍
这项由慕尼黑大学CompVis实验室、慕尼黑机器学习中心与苹果公司联合开展的研究,以预编本形式发布于2026年4月,论文编号为arXiv:2604.11737。

当前,视频AI技术面临一个核心的效率瓶颈:现有方法在预测物体运动时,总是将“视觉外观”与“运动轨迹”这两个维度的信息捆绑处理。这好比学习舞蹈时,必须同时记忆每一帧的服装、灯光和背景,才能理解手臂的摆动规律。这种耦合不仅导致模型臃肿,效率也极低——最先进的视频生成模型每秒仅能产出约0.2帧。而一项名为ZipMo的创新方法,实现了运动预测速度的万倍跃升,可达每秒数千帧。
ZipMo的核心思想是彻底解耦:将纯粹的运动信息从视频中剥离出来,构建一套独立、高度压缩的“运动语言”,并直接在这个抽象空间中进行预测与生成。这类似于铁路调度,只需掌握列车运行轨迹,无需关心每节车厢的载客或载货详情,即可高效指挥。
一、从视频海洋到运动地图——为什么要把运动单独拎出来?
延续舞蹈教学的比喻。教会AI预测人体动作,主要有两种路径:一是让其观看海量视频,逐帧记忆所有像素变化;二是仅提取人体关键关节点的空间坐标变化序列。后者显然更高效——信息维度大幅降低,且不受衣着、光照等无关变量干扰。
这正是研究团队的出发点。他们指出,当前视频生成模型的深层问题在于运动与外观信息高度纠缠。模型在学习“球体飞行”时,不可避免地同时学习了球的颜色、草坪纹理和光线方向。这种纠缠导致模型需要海量参数和算力,且时间压缩能力薄弱——现有视频自动编码器的时间压缩倍数通常仅为4到8倍。
相比之下,纯粹的运动轨迹是低维信息。一个点在64帧视频中的运动,本质上是64个二维坐标序列,不含任何外观冗余。这种信息天然适合极致压缩。ZipMo团队设定了一个大胆目标:将64帧的运动信息压缩为单个潜在向量,实现高达64倍的时间压缩率。
这里需要明确一个关键概念:“轨迹”或“追踪点”。它指的是在视频首帧标记一个像素点,并追踪其在后续每一帧中的位置,最终形成一条空间运动曲线。现代AI追踪器(如TapNext、CoTracker3)能自动从视频中提取大量此类轨迹。ZipMo的训练数据,正是利用这类工具从大规模视频中自动生成的。
二、运动地图是怎么绘制的——ZipMo的第一阶段
ZipMo框架分为两个阶段。第一阶段的目标,是训练一个能够绘制“运动地图”的编码器。
具体而言,团队训练了一个变分自动编码器(VAE)。你可以将其理解为一个“运动速记员”:输入一段视频中若干条稀疏的运动轨迹(例如20、50或100条任意分布的点位轨迹),再加上视频第一帧的图像特征,这个编码器便能将这些信息“提炼”成一张16×16的潜在网格。网格中的每个单元格存储着16个数值,整张网格便是整段视频运动状态的高度浓缩。
这张16×16的网格被称为“潜在运动空间”,它就像一张城市的运动地形图。地图虽小,却蕴含了视频运动的本质规律。更巧妙的是,这张地图支持“查询”——你可以询问它:“第一帧中坐标(0.3, -0.5)这个点,在未来64帧中将如何运动?”即便该点原本未被追踪,它也能给出预测。这实现了从稀疏输入到稠密输出的泛化能力。
在编码器设计上,团队做了几项精巧的工程决策。每条轨迹上的采样点首先经过傅里叶嵌入处理,将普通坐标转换为更丰富的数学表示,以帮助模型捕捉高频细节。随后,采用三维旋转位置编码(3D RoPE)来同时编码时间信息和轨迹身份信息,让模型既能区分“哪个轨迹在第几帧”,又能理解轨迹间的空间关系。所有轨迹点信息、网格信息以及首帧图像特征,通过全局自注意力机制进行交互,最终汇聚到那张16×16的潜在网格中。
解码器设计同样值得关注。它采用了掩码自动编码器(MAE)的思路:在训练时,随机掩码(隐藏)部分轨迹点,迫使解码器仅凭潜在网格和首帧特征,去预测这些被隐藏点的运动轨迹。这种策略能有效驱动模型学习泛化的运动规律,而非简单记忆输入。
训练这个“速记员”的目标函数包含两部分:一是重建误差(预测轨迹与真实轨迹坐标的L1距离),确保预测准确;二是KL散度正则项,约束潜在空间的分布接近标准正态分布,便于后续生成模型采样。两者通过一个极小的权衡系数β(1×10⁻⁶)进行平衡,表明模型主要专注于重建精度。
三、64倍压缩到底有多神奇——时间压缩的秘密
或许你会质疑:将64帧压缩成一个格子,信息损失不会太大吗?
研究团队进行了一组颇具说服力的实验,专门测试不同时间压缩倍数(从2倍到64倍)的效果。他们在固定计算预算下,训练了不同压缩倍数的模型,并同步评估运动生成质量、重建精度和推理速度。
结论出人意料却又在情理之中:压缩倍数越高,运动生成质量越好,推理速度越快,而重建精度仅有轻微下降。具体数据表明,从2倍压缩提升至64倍压缩,运动生成质量(以最小均方误差Min MSE衡量)从约7降至约5,推理速度提升了约20倍。重建精度(以δ^a vg衡量)则从约96.5%微升至约99%——这意味着,更高的压缩反而迫使模型学到了更本质的运动特征。
这背后存在两种相互强化的机制。首先是计算效率:压缩倍数越高,需要处理的时序标记(token)越少,同等算力下模型能见到更多样本,训练更充分。其次是语义化程度:更高的压缩迫使模型抛弃细节噪声,只保留运动的核心规律。团队通过一个kNN检索实验验证了这一点:在Something-Something V2数据集子集上,随着压缩倍数增加,利用潜在向量进行最近邻检索的动作类别识别准确率从约5%单调上升至约29%。这说明高压缩率的潜在空间确实学到了更丰富的语义信息,相似的运动在此空间中被聚合得更紧密。
这类似于汉字的演化过程。最初的甲骨文竭力摹画实物,“日”字画得如同太阳,细节丰富却难以书写。经过漫长抽象,“日”字被压缩成简单的方块,反而更易于书写和组合表达新意。ZipMo的潜在运动空间,完成的正是类似的“抽象提炼”工作。
四、让运动地图“开口说话”——ZipMo的第二阶段
拥有了高质量的运动潜在空间后,第二阶段的任务是训练一个生成模型,使其能在此空间内自由“创作”——给定初始场景和运动目标,生成符合物理规律的运动预测。
团队选择了流匹配(Flow Matching)技术路线。可以这样理解:训练一个“向导”,其工作是将随机噪声一步步“引导”成符合真实世界规律的运动模式。这个向导便是ZipMo的第二阶段模型,命名为ZipMo Planner。
ZipMo Planner是一个基于Transformer的神经网络,共24层,每层自注意力与交叉注意力的维度均为1024,总参数量约5.3亿。它的输入是一个带噪声的潜在运动网格,以及各种条件信号;输出是一个速度场,指示该噪声向量应向哪个方向“流动”才能更接近真实运动分布。
条件信号有两种形式,对应不同应用场景。第一种是“戳点”(Poke):用户在图像上指定若干点及其位移(如“从A点移到B点”)。这些点经傅里叶嵌入后,通过交叉注意力注入模型。此方式非常灵活——戳点稀少时,模型有更大自由发挥空间,能生成多样化的合理运动;戳点密集时,模型被严格约束,生成高度贴合指定路径的运动。第二种是文字描述:通过BERT文本编码器将任务指令转换为语言特征,再注入模型,适用于机器人操作等需要语言指令的场景。
值得注意的是,ZipMo Planner始终以第一帧的视觉特征(由冻结的DINOv2 ViT-B/14图像编码器提取)作为场景上下文。这确保了模型知晓“场景中有什么”,从而生成符合物理约束的运动。例如,它不会预测一只鸟俯冲后穿越地板,因为模型知道地板的存在。
五、训练数据与工程细节——一切从大规模视频开始
两个阶段的模型均在1000万个视频片段上训练,数据来源于开放大规模视频数据集KOALA-36M。每个片段最长8秒,经帧采样(每秒12-15帧)后,使用TapNext追踪器随机采样1024个点位,获得伪真实轨迹作为训练监督信号,并过滤高不确定性轨迹,最终在64帧长度的轨迹上进行训练。
VAE训练从64块H200 GPU开始,批次大小从64逐步扩大至256,总训练步数约80万步,耗时约3天。ZipMo Planner的训练规模相近,批次大小从512扩大至2048,总步数约70万步,同样耗时约3天。
两个模型均使用AdamW优化器,学习率为1×10⁻⁴,动量参数为(0.9, 0.95),采用bfloat16混合精度训练以节省显存。VAE采用带预热的稳定衰减学习率调度,Planner则使用常数学习率。归一化层采用RMSNorm,前馈网络使用SwiGLU激活函数,这些都是当前高性能模型的通用实践。
六、与其他方法的正面较量——结果如何?
研究团队在多个基准上评估了ZipMo,比较对象涵盖流场预测方法、原始轨迹预测方法以及最先进的视频生成大模型。
评估指标的设计本身便值得探讨。由于真实世界的运动具有高度多模态性——同一场景存在无数种物理合理的运动方式——使用单一确定性指标(如平均误差)会严重惩罚那些创造性预测了“另一种合理运动”的模型。因此,团队采用了三个互补的指标:Min MSE(最小均方误差,衡量生成的多个样本中是否存在一个贴近真实运动,反映分布覆盖能力)、Mean MSE(所有样本的平均均方误差,衡量多样性,过低表明模型崩塌至单一模式)、以及EPE(端点误差,在戳点条件下衡量模型遵循用户指定终点的程度)。所有指标均在[0,128]分辨率下计算。
在戳点条件下的运动生成对比中,ZipMo与Motion-I2V(流场预测方法,每秒21帧)和Track2Act(轨迹预测方法,每秒180帧)进行了比较。ZipMo以每秒2500帧的速度,在所有条件密度设置下(1个戳点至全图密集)均大幅领先。以1个戳点为例,ZipMo的Min MSE为41.0,Motion-I2V为135.7,差距超过3倍;EPE(条件遵循误差)ZipMo仅0.5,Motion-I2V高达19.7。Track2Act仅在密集条件下可评估,其Min MSE为138.7,远高于ZipMo的30.4。
与视频生成大模型的比较尤为引人注目。团队选择了两个代表性模型:Wan(140亿参数的开源视频模型)和Veo 3(谷歌DeepMind的闭源顶级视频模型)。由于视频模型不直接输出运动轨迹,团队使用CoTracker3对生成视频进行追踪,以获得可比较的运动预测结果。
在“样本匹配”评估下(双方各生成8个样本),ZipMo的Min MSE为27.08,Wan为28.67,Veo 3为36.18。ZipMo略优于Wan,明显优于Veo 3。但这一比较对ZipMo并不完全公平——ZipMo仅8.6亿参数,约为Wan的1/16。且生成8个视频样本对Wan而言需约1小时,而ZipMo仅需1秒。
在“时间匹配”评估下(双方使用相同的计算时间),差距变得极为悬殊。Wan在1小时内仅能生成1个视频样本,Veo 3同样只能生成1个(且时间未知),而ZipMo在相同时间内可生成超过1万个样本。结果是ZipMo的Min MSE降至21.29,而Wan和Veo 3仍停留在64左右。这意味着,当ZipMo能对同一场景进行大量采样、覆盖各种可能运动模式时,其生成的运动分布质量远超视频大模型。
七、让机器人听话——在机器人操作任务上的表现
研究团队还在LIBERO机器人操作基准上测试了ZipMo的实际决策能力。LIBERO包含多个子套件,任务描述以自然语言给出,如“打开炉灶并把摩卡壶放上去”。
ZipMo的应用方式如下:给定场景首帧和任务文字描述,ZipMo Planner生成一个运动嵌入,预测未来64帧(评估时下采样至16帧)内机器人手臂及相关物体的运动轨迹。随后,一个轻量级策略头(6层Transformer,768维)根据此运动嵌入预测机器人的下一步动作(7维关节角度向量)。策略头仅能读取运动嵌入,无法直接看到图像,这确保了真正的场景理解与规划由ZipMo完成,策略头仅负责将运动信号翻译为机械臂指令。
整个系统采用滚动规划策略:每执行一步动作后,便从当前帧重新规划未来运动轨迹,实现闭环控制。
在与同类方法的比较中,遵循ATM的评估设置,ZipMo在五个子套件上的平均成功率为77.5%,优于ATM的60.4%和Amplify的71.4%。遵循Tra-MoE的评估设置,ZipMo平均成功率为80.3%,优于Tra-MoE的61.4%。在需要精准识别目标物体的LIBERO-Object任务上,ZipMo成功率高达98%,在LIBERO-Spatial任务上达到91.3%,均大幅领先。
在轨迹预测精度上,ZipMo同样全面领先。与当前最佳的轨迹生成基准方法WHN相比,ZipMo在LIBERO-90侧视角的Min MSE为5.96,WHN为10.99;在LIBERO-10侧视角的Min MSE为7.43,WHN为13.86。与ATM、Tra-MoE等判别式方法相比,优势更为明显——ATM在LIBERO-90侧视角的MSE高达47.82,而ZipMo的单次采样误差(8.83)已远低于此值。
八、还能做什么——密集运动推断与视觉语义对齐
ZipMo还具备一些额外能力值得关注。
第一是密集运动推断。追踪器提供的轨迹是稀疏的,仅覆盖视频中部分像素点。但ZipMo可在任意空间位置查询运动,因此能将稀疏轨迹转换为全图稠密的运动场。具体操作是:将已有追踪轨迹作为戳点输入ZipMo Planner,生成完整的潜在运动网格,再对全图每个像素位置进行解码,得到类似光流的稠密运动表示。这对视频编辑、运动转移等需要全局运动场的下游任务非常有用。
第二是对追踪器选择的鲁棒性。测试表明,用TapNext训练的模型对CoTracker3轨迹的重建精度(δ^a vg约96-97%)与同源追踪器相当,说明ZipMo学到的是运动本质规律,而非特定追踪器的偏差。即便在训练时故意丢弃部分轨迹或仅使用未遮挡轨迹,重建精度也仅轻微下降(从96.8%降至93-94%),表现出良好的监督信号鲁棒性。
第三是在DA VIS 2017和PhysicsIQ这两个额外数据集上的泛化能力。DA VIS包含150段带有显著相机运动的真实视频,PhysicsIQ聚焦固体力学物理场景。ZipMo在两个数据集上均大幅优于Motion-I2V:在DA VIS上Min MSE从222.2降至155.1,在PhysicsIQ上从177.8降至90.6,EPE同样从16.37和12.4大幅降至0.83和0.76。
结语
归根结底,ZipMo的贡献可以概括为:用最少的信息、最快的速度,最精准地理解“物体如何运动”。这项研究的核心洞见在于,运动理解不必捆绑于视频生成的巨大计算开销之上。将运动从外观中剥离,压缩为高度语义化的潜在向量,并在这个“干净”的空间中进行生成与推理,不仅使速度提升万倍量级,其生成质量甚至超越了参数量数十倍于它的视频大模型。
对于机器人领域,ZipMo提供了一个高效的运动规划前端,能以极低成本实现从语言指令到运动预测的转化。对于视频理解研究,它展示了一条不依赖像素却能学习强运动语义的新路径。对于普通用户,未来某天,你的手机相册应用或许就能利用类似技术,真正理解“视频中猫咪跳跃的优雅姿态”,而不仅仅是识别出“这是一只猫”。
这项工作提醒我们,解决复杂问题的关键,有时并非一味扩大模型规模,而是厘清“我们真正需要什么信息”。ZipMo将这个问题的答案,优雅地压缩进了一张16×16的网格之中。
Q&A
Q1:ZipMo与普通视频生成模型(如Wan、Veo 3)的根本区别是什么?
A:根本区别在于,ZipMo仅预测运动轨迹,完全不生成视频画面,因此无需处理颜色、纹理、光照等视觉信息。这使得它能将64帧视频的运动信息压缩至极小的潜在向量,生成速度比视频模型快一万倍以上。由于运动与外观信息被彻底分离,学习更纯粹,其生成的运动质量反而更优。
Q2:ZipMo的“戳点”条件控制是如何工作的?
A:“戳点”是用户在图像上指定的若干“起点-终点”位移指令。ZipMo Planner通过交叉注意力机制将这些戳点整合进运动生成过程。戳点越多,生成的运动越贴近指定路径;戳点越少,模型的自由发挥空间越大,会生成多种物理合理的可能运动。
Q3:ZipMo在机器人控制中是如何使用的?
A:给定场景图像和文字任务描述,ZipMo预测未来16步内机器人手臂及相关物体的运动轨迹,并将其压缩为运动嵌入。一个轻量策略头读取此嵌入,预测机器人的关节动作。系统每执行一步便重新规划,形成闭环控制。在LIBERO基准测试中,其平均任务成功率约为77-80%,显著高于同类方法。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
AI语言模型纽约街头实测:哥本哈根大学研究揭示人机交互安全挑战
这项由哥本哈根大学、IIIT兰契、ISI加尔各答、NIT安得拉邦、IGDTUW、IIT卡拉格普尔、谷歌DeepMind、谷歌以及南卡罗来纳大学AI研究所联合开展的研究,以预印本形式于2026年4月10日发布,论文编号为arXiv:2604 09746。 人工智能助手的能力日益强大,从撰写报告到规划行
字节跳动GRN模型革新AI绘画实现边生成边修改新方法
在探讨AI图像与视频生成技术时,我们通常会想到扩散模型——它如同修复一张被雨水浸湿的照片,通过反复“去噪”从混沌中逐步显现清晰画面。尽管这种方法效果显著,却存在一个根本的效率瓶颈:无论生成内容的复杂程度如何,模型都需要执行固定且繁重的计算步骤,无法智能地分配算力资源。 另一条主流技术路径是自回归模型
斯坦福AI诊断师可自我评估短板并针对性优化
这项由斯坦福大学主导的研究以预印本形式于2026年4月发表,论文编号为arXiv:2604 05336v1。研究提出了一个名为TRACE的系统,全称是“Turning Recurrent Agent failures into Capability-targeted training Environ
Meta AI新研究揭示旧数据复用如何提升40%训练效率
一项由Meta基础人工智能研究团队与纽约大学柯朗研究所联合开展的研究,于2026年4月9日以预印本形式发布,论文编号为arXiv:2604 08706v1。这项研究颠覆了AI训练领域一个长期被视为“金科玉律”的常识。 一、一个反直觉的发现:旧数据“回炉重造”,效果更佳? 在AI模型训练中,数据如同食
AI能否记住你?Kenotic Labs评估体系重新定义人工智能记忆边界
这项由Kenotic Labs开发的研究成果发表于2026年4月的第39届神经信息处理系统大会(NeurIPS 2025),论文编号为arXiv:2604 06710v1。 不知道你有没有过这样的体验:和一位朋友促膝长谈,分享了近期的压力、生活的变动,甚至一些私密的感受。可下次见面,对方却仿佛失忆了
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

