阿里巴巴联手人大清华推出AI舞蹈导演系统音乐自动生成舞蹈视频
这项由阿里巴巴AMAP、中国人民大学、清华大学、武汉大学及Malou Tech公司联合完成的研究,以arXiv预印本形式发布于2025年12月(编号arXiv:2512.18181,最新版本更新于2026年5月),计划发表于ACM期刊。感兴趣的读者可以通过该编号在arXiv上查阅完整论文。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

你是否想过,在社交媒体上发布一段精彩的舞蹈视频可以变得非常简单?传统流程需要选歌、编舞、练习、录制和剪辑,步骤繁琐。现在,一种创新的AI技术有望改变这一切:你只需提供一张个人照片和一首喜欢的音乐,剩下的交给AI——它能自动构思并生成一段动作流畅、人物逼真的完整舞蹈视频。
这正是MACE-Dance系统致力实现的目标。其工作原理类似于一场高效的专业接力赛:第一棒是“编舞专家”,负责根据音乐创作舞蹈动作;第二棒是“视觉专家”,负责将动作完美渲染到指定人物形象上。两者协同,最终输出高质量舞蹈视频。
一、核心设计:为何采用“两步走”策略
理解MACE-Dance,关键在于其核心设计思路:为什么将“音乐生成舞蹈视频”这一复杂任务,拆解为两个独立的子任务,而不是采用单一的端到端模型?
从音乐直接生成像素级视频,要求模型同时具备两种高难度能力:一是理解音乐的节拍、旋律与情感风格,并将其转化为合理的人体运动序列;二是将这些运动序列以视觉上逼真、稳定的方式渲染出来,确保人物外貌、服装和光影在每一帧都保持一致。将这两项任务强行融合到一个模型中,往往会导致两者都无法达到最优效果。
更关键的是,端到端模型容易学习到错误的“捷径”,例如将特定背景颜色或服装样式与某种音乐风格错误关联,导致“特征混淆”。研究团队在测试Hallo2、EchoMimic-V3、WAN-S2V等现有模型时均观察到了此现象。
因此,团队采用了结构清晰的解耦方案:在音乐和视频之间,强制引入一个“中间语言”——三维人体运动参数序列(采用学界通用的SMPL格式)。这好比导演在拍摄前撰写的分镜脚本,明确了每一帧的演员姿态、朝向和位置,从而将“舞蹈创意”与“视觉呈现”彻底分离。
与二维关键点坐标相比,三维运动参数优势显著。二维坐标仅是三维动作在平面上的投影,会永久丢失深度信息,且难以处理关节遮挡。而三维格式保留了完整的空间信息,不受拍摄视角和距离影响,对自遮挡和视角变化具有天然的鲁棒性。实验证实,在相同框架下,使用三维参数替代二维关键点,无论在动作生成还是最终视频生成阶段,各项性能指标均有大幅提升。
二、第一棒:懂音乐的“编舞专家”(Motion Expert)
负责第一棒任务的是运动专家(Motion Expert)。其核心任务是:聆听一首音乐,创作出与之匹配的舞蹈动作序列,并以SMPL格式输出。
该模块基于扩散模型构建。其原理是:先向真实的舞蹈动作数据中逐步添加噪声,直至变成完全随机噪声;然后训练一个神经网络,学习在音乐信号的引导下,一步步“去除”噪声,还原出有意义的动作序列,确保生成的动作与音乐的节拍和风格同步。
在网络结构上,研究团队巧妙组合了两种擅长处理不同依赖关系的组件:
1. BiMamba(双向Mamba):Mamba模型擅长处理长序列,通过一个随时间演化的隐藏状态来记忆历史信息。“双向”设计使其能同时从时间轴的正反两个方向处理序列,既能回顾过去,也能预判未来,这对于理解音乐起伏和保证舞蹈流畅性至关重要。实验表明,仅使用单向Mamba会导致生成的舞蹈退化为简单重复的常见动作,艺术表现力下降。
2. Transformer跨模态注意力机制:这种结构擅长捕捉“全局关联”,让生成每一帧动作时都能参考整段音乐的整体信息,确保舞蹈的整体风格与音乐的情感走向保持一致。
两种组件分工协作:BiMamba保障动作在短时间内的连贯与流畅,Transformer则负责整体舞蹈风格与音乐的宏观匹配。
此外,该架构支持整段序列一次性生成,避免了逐帧生成导致的误差累积“滚雪球”效应,同时大幅提升了效率。在FineDance标准测试集上,该模块每秒可生成770帧动作,速度远超同类方法。
在训练策略上,团队引入了“无引导训练”(GFT)机制,替代了传统的“无分类器引导”(CFG)方法。GFT在训练阶段就将质量控制参数(β)融入模型,推理时只需运行一次模型并通过调节β来平衡结果的多样性与忠实度,效率提升约1.62倍,且各项质量指标均有改善。
三、第二棒:让“画面”与“动作”完美融合的视觉专家(Appearance Expert)
运动专家生成三维动作序列后,外观专家(Appearance Expert)接过第二棒,负责将这段动作“穿”到参考图片中的人物身上,生成完整视频。
团队基于强大的通用人物动画模型Wan-Animate进行改造。针对舞蹈中高速、全身性的复杂动作,设计了两阶段的专门化微调策略:
1. 运动学阶段:首先,通过一个“投影器”模块,将SMPL三维参数转换为Wan-Animate能接受的二维关键点格式。此阶段仅训练一个专门的Body Adapter(身体适配器)模块,冻结模型其他所有参数,精准增强对身体运动信号的处理能力,避免引入不稳定性。
2. 美学阶段:在动作准确性得到保障后,通过插入轻量级的LoRA适配器来优化视觉质量。LoRA是一种高效微调技术,仅通过学习两个低秩小矩阵来调整模型行为,参数量极少。此阶段仅训练这些LoRA参数,专注于提升皮肤纹理、服装稳定性以及对复杂镜头运动的处理能力,而不破坏已有的运动控制能力。
消融实验证明了两阶段的必要性:缺少运动学阶段,视频会出现明显的动作跟随误差和运动模糊;缺少美学阶段,则会出现明显的“鬼影”伪影,视觉质量下降。
四、专为任务打造的数据集与评测体系
为客观评估新任务,研究团队同步构建了数据集MA-Data和一套“运动-外观双维度”评测协议。
MA-Data包含7万段时长5至10秒的视频片段,总时长116小时,涵盖20余种舞蹈风格。数据来源包括专业的FineDance三维数据集和来自抖音、YouTube等平台的高质量真实舞蹈视频,并经过严格清洗。
评测协议从两个维度进行: - 运动维度:评估动作的动态特征分布(FID)、多样性(DIV)以及与音乐的节拍对齐分数(BAS)。 - 外观维度:借用VBench视频生成基准,评估图像质量、美学质量、人物一致性等六项指标。
五、实验结果:三项任务全面领先
研究团队在三项核心任务上进行了对比实验,均取得了当前最优结果:
1. 三维舞蹈生成:Motion Expert在FineDance数据集上对比多个方法,在几乎所有指标上达到最优,生成速度高达每秒770帧。 2. 姿态驱动图像动画:Appearance Expert在FVD、SSIM等四项指标上全面领先。 3. 音乐驱动舞蹈视频生成:完整的MACE-Dance系统在运动维度和外观维度的大多数指标上排名第一,尤其在节拍对齐和动作质量上提升显著。
替换实验进一步验证了设计合理性:用其他组件替换任一专家,都会导致对应维度的指标明显下降,说明两个专家缺一不可,作用互补。
六、用户研究与功能拓展
除了量化指标,用户研究也证实了系统的优越性。在有舞蹈背景的参与者中,MACE-Dance在所有评估维度(如舞蹈同步性、质量、创意)上都获得了最高的偏好比例。
此外,Motion Expert还支持强大的运动编辑功能,通过“蒙版去噪”机制,无需重新训练即可实现时序补全、关节级编辑和轨迹引导等实用编辑模式,拓展了在CG动画、VR虚拟人等场景的应用潜力。
七、总结与展望
MACE-Dance通过巧妙的“解耦”设计,将复杂的音乐驱动舞蹈视频生成问题,转化为“如何跳”和“跳的人什么样”两个相对独立子问题的串联求解。两者以标准三维运动参数为接口,各自优化,联合输出。
这项技术预示着,未来普通人或许仅凭一张照片和一首歌,就能获得一段风格匹配、动作流畅、人物逼真的个性化舞蹈视频。当然,随之而来的肖像权使用、训练数据文化偏见等伦理问题也值得持续关注和审慎对待。
对研究感兴趣的读者,可通过arXiv编号2512.18181查阅完整论文,相关代码已在GitHub开源。
Q&A
Q1:MACE-Dance生成舞蹈视频需要提供什么输入?
A:仅需要一张参考人物图片和一段音乐。系统会根据音乐自动生成舞蹈动作,并将其与参考图片中的人物结合,输出完整视频,用户无需自行设计动作。
Q2:MACE-Dance使用的三维运动参数和普通的姿态骨架有什么区别?
A:普通二维姿态骨架只记录平面坐标,会丢失深度信息,且无法处理关节遮挡。MACE-Dance使用的SMPL三维参数保留了完整的空间位置和深度信息,不受视角影响,对自遮挡更鲁棒,能提供更稳定的监督信号,从而提升最终的运动质量和视频一致性。
Q3:MACE-Dance支持对已有舞蹈动作进行修改吗?
A:支持。Motion Expert内置的蒙版去噪机制支持无需重新训练的运动编辑。可以固定片段首尾进行中间补全,可以固定身体局部(如上半身)补全其余部分,也可以指定移动轨迹生成对应舞蹈序列。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
解决Figma内存溢出崩溃问题 查看图层复杂度与减少大图使用
当你在使用Figma进行设计时,如果频繁遇到软件崩溃、界面卡顿无响应,或者文件被意外锁定,并伴随黄色(60%)、红色(75%)乃至深红色(100%)的内存占用警告弹窗,这通常意味着你的设计文件已触发内存溢出问题。作为一款基于Chromium内核的网页与桌面应用,Figma为每个运行实例设定的内存上限
Figma批量对齐不同尺寸容器技巧 Align工具组使用指南
在Figma中处理多个尺寸不一的容器时,手动逐个对齐不仅效率低下,还难以保证精度。掌握正确的工具与流程,批量对齐不同尺寸的Frame或组件,可以轻松实现高效且精准的布局调整。 一、确保图层处于可对齐的同级结构中 Figma的Align工具组功能强大,但其生效范围取决于当前选中的图层,并受图层层级关系
豆包AI知识库搭建教程 手把手教你创建专属知识库
要将豆包AI打造成您的专属知识中枢,实现长期记忆与精准调用特定领域信息,关键在于掌握其知识库功能的深度配置与进阶应用。这不仅是上传文件,更是构建一个结构化、可推理的智能知识体系。以下为您详解实现这一目标的完整操作框架。 一、创建并配置专属知识库 知识库是豆包AI调用外部资料的核心容器,是构建专属知识
字节跳动多模态模型Mamoda2.5功能详解与应用场景
多模态AI领域迎来重磅突破,字节跳动正式发布其统一多模态AR-Diffusion模型——Mamoda2 5。这款集大成之作,凭借创新的架构设计和卓越的性能指标,一经发布便成为业界焦点。 Mamoda2 5的核心在于“统一”。它将多模态理解、文生图、文生视频、图像与视频编辑等多项核心AI能力,整合进一
AI成为众矢之的 这种批评是否错位
技术与劳动的关系,堪称贯穿人类经济史的一条主线。 一个多世纪前,第二次工业革命催生的机器轰鸣,曾直接触发了争取“八小时工作制”的五一运动。今天,我们似乎又站在了一个似曾相识的十字路口:人工智能的浪潮,正以前所未有的广度和深度,冲击着我们对劳动的传统认知。效率的碾压、岗位的替代,让不少劳动者,尤其是青
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

