Meta AI推出Saber：新模型无特殊训练数据也能制作新视频

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

科技数码

Meta AI推出Saber：新模型无特殊训练数据也能制作新视频

热心网友时间：2026-01-05

转载

这项由Meta AI研究团队与伦敦国王学院联合完成的研究于2024年12月发表，研究编号为arXiv:2512 06905v1。感兴趣的读者可以通过该编号在学术数据库中查询完整论文。研究团队面临的问

这项由Meta AI研究团队与伦敦国王学院联合完成的研究于2024年12月发表，研究编号为arXiv:2512.06905v1。感兴趣的读者可以通过该编号在学术数据库中查询完整论文。

研究团队面临的问题其实很容易理解。当你想要制作一段视频，比如让梵高出现在咖啡馆里喝咖啡，或者让《戴珍珠耳环的少女》这幅名画中的女孩在窗前变换姿势，现有的技术需要大量特殊准备的训练材料。这些材料必须包含参考图像、对应视频和文字描述三者的完美组合，就像需要同时拥有食谱、制作过程视频和成品照片才能学会做菜一样。

问题在于，制作这样的训练材料成本极高，就像要为每道菜都准备完整的教学套餐一样困难。研究团队发现，现有方法需要构建包含参考图像-视频-文本三元组的专门数据集，这个过程涉及复杂的数据收集、标注、聚类和筛选流程，不仅昂贵而且难以大规模扩展。

Meta AI的研究团队提出了一个巧妙的解决方案，他们开发了名为Saber的框架。这个系统的核心思想是通过一种"遮罩训练策略"来模拟参考图像到视频的生成过程。就像学习绘画时，老师不需要专门准备每一种参考照片，而是随机遮挡一幅完整画作的某些部分，让学生根据可见部分推测和重现整幅作品。

Saber在训练过程中会随机选择视频中的某些帧，然后用各种形状的遮罩部分覆盖这些帧，将被遮罩的区域作为"参考图像"。这种方法让模型学会了如何从部分信息中提取身份特征和外观特征，然后将这些特征融入到生成的视频中。研究团队设计了多种遮罩形状，包括椭圆、傅里叶斑点、凸多边形和凹多边形等，确保训练的多样性。

为了避免常见的"复制粘贴"问题，研究团队还引入了遮罩增强技术。这就像在制作拼图时，不是简单地把原片段直接放回原位，而是对片段进行旋转、缩放、翻转等变换后再放置。这样可以让生成的视频更加自然，避免出现生硬的拼接痕迹。

在模型设计方面，Saber采用了一种巧妙的注意力机制。系统将参考图像和目标视频帧在特征空间中连接，通过自注意力机制让视频部分和参考部分相互交互，同时通过交叉注意力机制结合文本提示的语义指导。这种设计确保了参考图像的身份信息能够准确传递到生成的视频中，同时保持与文本描述的一致性。

研究团队在OpenS2V-Eval基准测试上进行了全面评估。这个测试包含180个提示，涵盖单一参考和多重参考等七个类别。结果显示，Saber在总体评分上达到了57.91%，超过了需要专门训练数据的方法。特别是在NexusScore这个最能反映参考到视频性能的指标上，Saber取得了47.22%的成绩，比其他方法高出显著幅度。

值得注意的是，Saber展现出了优秀的泛化能力。它不仅能处理不同数量的参考图像，还能根据遮罩比例的调整来适应前景主体或背景场景的不同需求。当需要保持前景角色时，系统使用较小的遮罩比例，而需要保持背景环境时，则使用较大的遮罩比例。

研究团队还发现了Saber的一些有趣能力。比如，当提供同一个主体的多个视角作为参考时，系统能够正确识别这些图像描述的是同一个对象，并将多视角的外观特征融合到一个连贯的视频主体中。此外，通过改变文本描述中的主体信息，比如将"穿蓝色衬衫的男子"改为"穿黑色背心的男子"，Saber能够准确地调整生成视频中对应主体的外观。

在实际应用中，Saber的推理过程相当直观。对于每个参考图像，系统首先使用预训练的物体分割器提取前景主体区域遮罩。如果用户希望参考图像提供背景场景而非前景主体，则跳过分割步骤，使用完整的未遮罩图像。然后，系统将参考图像标准化并对被遮罩的背景区域填充零值，最后通过调整大小和填充操作处理到目标视频尺寸。

研究团队进行了详细的消融研究来验证各个组件的重要性。他们发现，相比于在专门的参考到视频数据集上训练，遮罩训练策略能够提升1.67%的总体评分。单一类型遮罩的表现明显不如多种类型遮罩的组合，说明遮罩多样性对于泛化能力至关重要。固定前景面积比例会导致6.18%的性能下降，证明遮罩变化的重要性。

遮罩增强技术的效果也很明显。在没有增强的情况下，模型会出现严重的复制粘贴伪影，直接将参考内容原样放置到生成视频中。而应用了旋转、缩放、翻转和剪切等增强后，生成的视频显得更加自然和连贯。

注意力遮罩机制同样关键。如果移除注意力遮罩，模型在提取参考图像主体时会出现明显的灰色伪影，无法正确分离主体和背景。而使用注意力遮罩后，这些问题得到了有效解决，生成的视频质量显著提升。

与现有方法相比，Saber在多个场景中都展现出了优势。在单一人物参考场景中，竞争方法要么无法将参考主体嵌入生成视频，要么存在复制粘贴问题，而Saber能够生成一致且符合文本描述的面部身份。在单一物体参考场景中，Saber准确捕获了物体的形状和外观特征。在多重参考场景中，Saber能够同时整合多个主体，而其他方法往往只能处理其中一个或出现身份重复。

这项研究的意义在于为参考到视频生成开辟了新的发展路径。通过消除对昂贵专门数据集的依赖，Saber使得这项技术能够利用大规模的视频-文本数据进行训练，这为未来的规模化发展奠定了基础。同时，Saber的零样本特性意味着它能够处理训练中未见过的主体类别，具有更强的实用性。

当然，这项技术也存在一定的局限性。当参考图像数量显著增加时，比如达到12张，生成可能会出现分解现象，导致片段化的组合而缺乏连贯理解。此外，在复杂提示下的精细运动控制和时间一致性仍然是挑战。

说到底，Saber代表了视频生成技术发展的一个重要里程碑。它证明了通过巧妙的训练策略设计，可以在不增加数据收集成本的情况下实现高质量的参考到视频生成。这种方法不仅在技术上具有创新性，在实际应用中也更具可行性，为个性化视频生成、定制化故事讲述和虚拟化身等应用场景提供了新的可能性。

Q&A

Q1：Saber是什么样的技术？

A：Saber是Meta AI开发的一种新型视频生成技术，它能够根据参考图像和文字描述生成保持角色身份的视频。与传统方法不同，Saber不需要专门的训练数据集，而是通过"遮罩训练"策略来学习如何从部分信息中提取特征并生成完整视频。

Q2：遮罩训练策略是如何工作的？

A：遮罩训练就像让AI学习拼图游戏一样。系统随机选择视频中的某些帧，用各种形状的遮罩覆盖部分区域，然后学习如何根据可见部分推测和重现整个视频。这种方法让模型学会从参考图像中提取身份特征，并将这些特征自然地融入到新生成的视频中。

Q3：Saber相比其他视频生成方法有什么优势？

A：Saber最大的优势是不需要昂贵的专门训练数据，却能在测试中超越那些需要专门数据的方法。它还能灵活处理不同数量的参考图像，支持多主体和多视角输入，并且能够根据文字描述准确调整生成内容，避免了常见的复制粘贴问题。

来源:https://www.163.com/dy/article/KIHQQI7G0511DTVV.html

上一篇：弗吉尼亚大学团队：让机器人精准翻译人类动作