当前位置: 首页
科技数码
Meta AI推出Saber:新模型无特殊训练数据也能制作新视频

Meta AI推出Saber:新模型无特殊训练数据也能制作新视频

热心网友 时间:2026-01-05
转载


免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

这项由Meta AI研究团队与伦敦国王学院联合完成的研究于2024年12月发表,研究编号为arXiv:2512.06905v1。感兴趣的读者可以通过该编号在学术数据库中查询完整论文。

研究团队面临的问题其实很容易理解。当你想要制作一段视频,比如让梵高出现在咖啡馆里喝咖啡,或者让《戴珍珠耳环的少女》这幅名画中的女孩在窗前变换姿势,现有的技术需要大量特殊准备的训练材料。这些材料必须包含参考图像、对应视频和文字描述三者的完美组合,就像需要同时拥有食谱、制作过程视频和成品照片才能学会做菜一样。

问题在于,制作这样的训练材料成本极高,就像要为每道菜都准备完整的教学套餐一样困难。研究团队发现,现有方法需要构建包含参考图像-视频-文本三元组的专门数据集,这个过程涉及复杂的数据收集、标注、聚类和筛选流程,不仅昂贵而且难以大规模扩展。

Meta AI的研究团队提出了一个巧妙的解决方案,他们开发了名为Saber的框架。这个系统的核心思想是通过一种"遮罩训练策略"来模拟参考图像到视频的生成过程。就像学习绘画时,老师不需要专门准备每一种参考照片,而是随机遮挡一幅完整画作的某些部分,让学生根据可见部分推测和重现整幅作品。

Saber在训练过程中会随机选择视频中的某些帧,然后用各种形状的遮罩部分覆盖这些帧,将被遮罩的区域作为"参考图像"。这种方法让模型学会了如何从部分信息中提取身份特征和外观特征,然后将这些特征融入到生成的视频中。研究团队设计了多种遮罩形状,包括椭圆、傅里叶斑点、凸多边形和凹多边形等,确保训练的多样性。

为了避免常见的"复制粘贴"问题,研究团队还引入了遮罩增强技术。这就像在制作拼图时,不是简单地把原片段直接放回原位,而是对片段进行旋转、缩放、翻转等变换后再放置。这样可以让生成的视频更加自然,避免出现生硬的拼接痕迹。

在模型设计方面,Saber采用了一种巧妙的注意力机制。系统将参考图像和目标视频帧在特征空间中连接,通过自注意力机制让视频部分和参考部分相互交互,同时通过交叉注意力机制结合文本提示的语义指导。这种设计确保了参考图像的身份信息能够准确传递到生成的视频中,同时保持与文本描述的一致性。

研究团队在OpenS2V-Eval基准测试上进行了全面评估。这个测试包含180个提示,涵盖单一参考和多重参考等七个类别。结果显示,Saber在总体评分上达到了57.91%,超过了需要专门训练数据的方法。特别是在NexusScore这个最能反映参考到视频性能的指标上,Saber取得了47.22%的成绩,比其他方法高出显著幅度。

值得注意的是,Saber展现出了优秀的泛化能力。它不仅能处理不同数量的参考图像,还能根据遮罩比例的调整来适应前景主体或背景场景的不同需求。当需要保持前景角色时,系统使用较小的遮罩比例,而需要保持背景环境时,则使用较大的遮罩比例。

研究团队还发现了Saber的一些有趣能力。比如,当提供同一个主体的多个视角作为参考时,系统能够正确识别这些图像描述的是同一个对象,并将多视角的外观特征融合到一个连贯的视频主体中。此外,通过改变文本描述中的主体信息,比如将"穿蓝色衬衫的男子"改为"穿黑色背心的男子",Saber能够准确地调整生成视频中对应主体的外观。

在实际应用中,Saber的推理过程相当直观。对于每个参考图像,系统首先使用预训练的物体分割器提取前景主体区域遮罩。如果用户希望参考图像提供背景场景而非前景主体,则跳过分割步骤,使用完整的未遮罩图像。然后,系统将参考图像标准化并对被遮罩的背景区域填充零值,最后通过调整大小和填充操作处理到目标视频尺寸。

研究团队进行了详细的消融研究来验证各个组件的重要性。他们发现,相比于在专门的参考到视频数据集上训练,遮罩训练策略能够提升1.67%的总体评分。单一类型遮罩的表现明显不如多种类型遮罩的组合,说明遮罩多样性对于泛化能力至关重要。固定前景面积比例会导致6.18%的性能下降,证明遮罩变化的重要性。

遮罩增强技术的效果也很明显。在没有增强的情况下,模型会出现严重的复制粘贴伪影,直接将参考内容原样放置到生成视频中。而应用了旋转、缩放、翻转和剪切等增强后,生成的视频显得更加自然和连贯。

注意力遮罩机制同样关键。如果移除注意力遮罩,模型在提取参考图像主体时会出现明显的灰色伪影,无法正确分离主体和背景。而使用注意力遮罩后,这些问题得到了有效解决,生成的视频质量显著提升。

与现有方法相比,Saber在多个场景中都展现出了优势。在单一人物参考场景中,竞争方法要么无法将参考主体嵌入生成视频,要么存在复制粘贴问题,而Saber能够生成一致且符合文本描述的面部身份。在单一物体参考场景中,Saber准确捕获了物体的形状和外观特征。在多重参考场景中,Saber能够同时整合多个主体,而其他方法往往只能处理其中一个或出现身份重复。

这项研究的意义在于为参考到视频生成开辟了新的发展路径。通过消除对昂贵专门数据集的依赖,Saber使得这项技术能够利用大规模的视频-文本数据进行训练,这为未来的规模化发展奠定了基础。同时,Saber的零样本特性意味着它能够处理训练中未见过的主体类别,具有更强的实用性。

当然,这项技术也存在一定的局限性。当参考图像数量显著增加时,比如达到12张,生成可能会出现分解现象,导致片段化的组合而缺乏连贯理解。此外,在复杂提示下的精细运动控制和时间一致性仍然是挑战。

说到底,Saber代表了视频生成技术发展的一个重要里程碑。它证明了通过巧妙的训练策略设计,可以在不增加数据收集成本的情况下实现高质量的参考到视频生成。这种方法不仅在技术上具有创新性,在实际应用中也更具可行性,为个性化视频生成、定制化故事讲述和虚拟化身等应用场景提供了新的可能性。

Q&A

Q1:Saber是什么样的技术?

A:Saber是Meta AI开发的一种新型视频生成技术,它能够根据参考图像和文字描述生成保持角色身份的视频。与传统方法不同,Saber不需要专门的训练数据集,而是通过"遮罩训练"策略来学习如何从部分信息中提取特征并生成完整视频。

Q2:遮罩训练策略是如何工作的?

A:遮罩训练就像让AI学习拼图游戏一样。系统随机选择视频中的某些帧,用各种形状的遮罩覆盖部分区域,然后学习如何根据可见部分推测和重现整个视频。这种方法让模型学会从参考图像中提取身份特征,并将这些特征自然地融入到新生成的视频中。

Q3:Saber相比其他视频生成方法有什么优势?

A:Saber最大的优势是不需要昂贵的专门训练数据,却能在测试中超越那些需要专门数据的方法。它还能灵活处理不同数量的参考图像,支持多主体和多视角输入,并且能够根据文字描述准确调整生成内容,避免了常见的复制粘贴问题。

来源:https://www.163.com/dy/article/KIHQQI7G0511DTVV.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
雷鸟创新AWE斩获艾普兰创新奖 蝙蝠侠限定款国内首秀

雷鸟创新AWE斩获艾普兰创新奖 蝙蝠侠限定款国内首秀

雷鸟X3 Pro斩获AWE艾普兰创新大奖,开启全民AR生活新篇章 在上海新国际博览中心隆重揭幕的2026年中国家电及消费电子博览会(AWE)上,前沿AI科技与未来生活愿景激情碰撞。全球消费级AR领导品牌雷鸟创新,以其里程碑式的表现,定义了行业发展的新方向。 通过“顶尖硬件科技+顶级文化IP”的双轨战

时间:2026-04-02 22:59
AWE探展MOVA:31款创新产品集中亮相 重新定义智慧生活新体验

AWE探展MOVA:31款创新产品集中亮相 重新定义智慧生活新体验

借力AWE2026“一展双区”,MOVA双区协同、震撼登场 备受瞩目的科技盛会——2026年中国家电及消费电子博览会(AWE),于3月12日至15日在上海盛大举办。本届AWE展会首次创新采用“一展双区”的展览模式,主会场位于上海新国际博览中心,分会场则设于上海东方枢纽国际商务合作区,两大展区高效联动

时间:2026-04-02 22:59
iPhone 18 Pro设计挤牙膏了 继续用前代模具

iPhone 18 Pro设计挤牙膏了 继续用前代模具

iPhone 18 Pro系列模具不变,屏幕形态将与iPhone 17 Pro保持一致 备受期待的屏下Face ID组件小型化设计与灵动岛区域缩窄方案,预计将被推迟至后续迭代机型中正式应用。 近期,关于iPhone 18 Pro系列的技术传闻持续引发行业关注,尤其在显示与解锁设计领域传言甚多。多方消

时间:2026-04-02 22:57
海韵 FOCUS v5系列电源3.16日首发,标配ATX 3.1规范

海韵 FOCUS v5系列电源3.16日首发,标配ATX 3.1规范

海韵FOCUS v5电源正式上市:140mm短机身设计,白金能效,专为紧凑高性能主机打造 对于追求极致空间利用的DIY玩家,尤其是ITX与小尺寸机箱用户,一款高效且尺寸紧凑的电源是组建高性能主机的关键。海韵旗下备受期待的FOCUS v5系列电源,现已在京东自营旗舰店正式发售。该系列主打标准的140m

时间:2026-04-02 22:56
2026必买A级纯电SUV 方程豹钛3闪充版上市15万起

2026必买A级纯电SUV 方程豹钛3闪充版上市15万起

作为A级纯电市场首款标配闪充的方盒子车型,方程豹钛3闪充版凭借三大越级实力,问鼎同级科技与潮流标杆 2026年3月13日,方程豹品牌正式推出钛3闪充版,新车提供620KM后驱闪充版与565KM四驱闪充版两个车型配置,官方指导价定在15 38万至16 98万元区间。同步,备受期待的钛7EV闪充版也启动

时间:2026-04-02 22:52
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程