阿里巴巴人大清华联合研发舞蹈AI导演系统

如何用AI生成自己跳舞的视频?这项技术正变得触手可及。近期,一项由阿里巴巴AMAP、中国人民大学、清华大学、武汉大学及Malou Tech公司联合完成的研究,提出了名为MACE-Dance的创新系统,旨在系统性地解决这一难题。相关论文已发布于arXiv预印本平台(编号arXiv:2512.18181),并计划发表于ACM期刊。
该研究的目标清晰:用户仅需提供一张个人照片和一段背景音乐,AI即可自动生成动作流畅、人物逼真的舞蹈视频。这背后涉及巨大挑战:舞蹈动作需符合人体运动学、精准匹配音乐节拍,同时生成的视频必须保持人物身份一致、画面稳定。现有技术方案常顾此失彼,要么仅能输出简单的3D骨架动画,要么生成的视频动作僵硬、面部模糊。
MACE-Dance的解决方案颇具巧思:它并未采用单一的“全能模型”,而是将任务拆解为两个专业模块的“接力协作”。第一阶段,“运动专家”根据音乐生成标准的三维舞蹈动作序列;第二阶段,“外观专家”将这些动作“穿戴”到参考图片的人物身上,渲染输出最终视频。这种分工明确的架构,成为攻克技术瓶颈的关键。
一、为何采用分步式生成架构?
在端到端模型盛行的当下,为何选择拆解任务?核心原因在于,从音乐直接生成像素级视频,要求模型同时掌握音乐理解、动作生成与高保真渲染等多种能力。若强行使用单一模型学习,模型极易“走捷径”,学习到虚假关联——例如将特定背景色彩与音乐风格错误绑定,导致生成结果出现逻辑谬误。
研究团队在调试现有模型时,已观察到此类现象。为此,他们引入了明确的“中间表示”——三维人体运动参数(SMPL格式)。这类似于导演先创作详细的分镜头脚本,明确每一帧的演员姿态,再将拍摄与后期特效交由不同专业团队执行。相较于常用的二维人体关键点,三维参数完整保留了空间深度信息,不受视角变化与遮挡干扰,为后续视频合成提供了更为稳定可靠的“动作蓝图”。实验数据证实,采用三维中间表示后,系统各项性能指标均获显著提升。
二、第一阶段:精通音乐的“编舞专家”
负责动作生成的“运动专家”(Motion Expert),其核心是一个精心设计的扩散模型。简而言之,该模型的学习过程是:对真实的舞蹈动作数据逐步添加噪声直至完全随机化,随后训练一个神经网络,使其能够在音乐条件的引导下,逐步去除噪声,重建出与音乐节奏及风格相匹配的舞蹈动作。
该网络结构设计巧妙。它融合了双向Mamba(BiMamba)与Transformer跨模态注意力两种组件。BiMamba擅长处理长序列数据,能有效捕捉动作的前后时序依赖,确保动作短时域内的流畅性;而跨模态注意力机制则使每一帧动作的生成都能“参考”整段音乐的全局风格与情感脉络。两者协同,分别保障了局部连贯性与整体协调性。
更重要的是,该模块采用整体序列生成策略,而非逐帧生成,有效避免了误差累积导致的“动作漂移”问题,生成效率极高,在标准测试集上可达每秒770帧。
在训练策略上,团队采用了“无引导训练”(Guidance-Free Training, GFT)替代传统的“无分类器引导”(Classifier-Free Guidance, CFG)。传统方法在推理时需运行两次模型,效率折半。GFT则在训练时直接引入一个可调节的“质量控制参数”(β),推理时仅需单次前向传播,通过调整β值即可在动作多样性与对训练数据分布的忠实度之间取得平衡。此举不仅节省了近一半的计算时间,且生成效果更为稳定。
三、第二阶段:实现“形神兼备”的视觉专家
获得高质量的动作序列后,如何将其生动、逼真地呈现在视频中?这便是“外观专家”(Appearance Expert)的职责。研究团队选择基于强大的Wan-Animate基础模型进行改造,但并非简单微调,而是设计了一套两阶段的专业化适配策略。
首先,需要一个衔接步骤:将三维SMPL参数转化为Wan-Animate模型能够理解的二维人体关键点。这一过程通过参数化渲染与关键点检测实现,既保留了三维信息的优势,又适配了下游视频生成模型的输入要求。
第一阶段为“运动学适配阶段”。舞蹈动作幅度大、全身协调性要求高,而原模型更侧重于面部细节。团队仅训练一个专门的“身体运动适配器”,精准提升模型对身体运动信号的关注权重,而不改动模型其他部分,从而确保了动作控制的准确性。
第二阶段为“美学优化阶段”。在动作准确的基础上,通过插入轻量级的LoRA适配器,专门优化生成视频的视觉质量,例如提升皮肤纹理真实感、增强服装稳定性、改善复杂镜头运动下的画面表现等。这两个阶段依次进行,分工明确。消融实验表明,缺少任一阶段,最终视频质量都会显著下降。
四、专为舞蹈生成构建的数据集与评估体系
为客观评估新任务,团队构建了MA-Data数据集,包含约7万段舞蹈视频片段,总时长116小时,涵盖20多种舞蹈风格。数据来源兼顾了专业性与真实性:一部分采集自专业舞者的高精度三维动作捕捉数据(保证运动质量),另一部分则来自抖音、YouTube等平台的真实舞蹈视频(保证视觉自然度)。
相应的评估体系也分为“运动质量”与“外观质量”两个维度。运动维度从人体运动学角度评估动作的自然度、多样性以及与音乐的同步性;外观维度则借鉴现有视频生成领域的评估基准,衡量画面质量、时序一致性、平滑度等指标。这套双维度评估协议能更全面地衡量系统的综合性能。
五、实验结果:多项任务表现领先
在三维舞蹈动作生成、姿态驱动图像动画、以及端到端的音乐驱动舞蹈视频生成这三项核心任务上,MACE-Dance均取得了当前最优的评测结果。
特别是在最终的舞蹈视频生成任务上,无论是与“三维生成+视频渲染”的串联方法相比,还是与直接进行视频生成的端到端方法相比,MACE-Dance在绝大多数运动质量和外观质量指标上均排名第一。即使与参数量更大的通用视频生成大模型相比,MACE-Dance在人物身份一致性、动作质量等核心维度上仍表现更优,实现了专业性能与生成效率的良好平衡。
六、用户研究与主观评价验证
量化指标优异,真人观感如何?团队邀请了40位具备舞蹈背景的参与者进行盲测评估。在舞蹈动作与音乐同步性、视频质量、创意性、画面一致性等六个维度上,MACE-Dance生成的视频均获得了最高的用户偏好比例,这证实了其技术优势能够有效转化为更佳的用户体验。
七、运动专家的扩展应用:动作编辑功能
除了从头生成舞蹈,Motion Expert模块还支持灵活的“运动编辑”功能。通过类似图像修复中的“掩码去噪”机制,用户可在推理阶段对已有动作序列进行局部修改,例如补全缺失的舞蹈段落、固定上半身姿态仅重新生成下半身动作、或按照指定轨迹生成舞蹈等,而无需重新训练模型。这极大地拓展了系统的应用灵活性。
由于Motion Expert的输出是标准的三维运动参数,该系统也能轻松接入现有的三维动画制作、游戏开发或虚拟现实(VR)工作流程,实用性强。
八、长序列生成与跨风格泛化能力
系统对于不同舞蹈风格的泛化能力如何?可视化结果显示,对于维吾尔族舞蹈、敦煌舞、K-Pop等风格迥异的舞蹈,模型均能捕捉其核心运动特征,生成具有鲜明风格特色的动作。
面对生成长度达分钟级别的舞蹈视频的挑战,MACE-Dance通过BiMamba模型的长序列外推能力,以及视频渲染阶段采用的“上下文感知渲染”策略(同时参考全局姿态序列、上一帧生成画面和原始人物参考图像),有效防止了生成过程中人物面部“身份变换”或背景“漂移”等问题,能够输出连贯、稳定的长序列舞蹈视频。
总而言之,MACE-Dance的成功在于其模块化设计思想:通过任务解耦,让“运动专家”与“外观专家”各司其职,再以标准化的三维动作接口进行串联。这为普通人创作个性化舞蹈视频提供了新的技术路径。当然,随之而来的深度伪造等伦理与安全问题,也需要业界持续关注并积极应对。
常见问题解答
Q1:使用MACE-Dance生成舞蹈视频需要提供哪些输入?
仅需一张人物参考图片和一段背景音乐。系统将全自动完成从动作生成到视频渲染的全过程,用户无需具备舞蹈编排或动画制作知识。
Q2:MACE-Dance使用的三维运动参数与传统的二维姿态骨架有何区别?
传统的二维骨架会丢失深度信息,且易受视角变化和肢体遮挡的影响。三维SMPL参数完整保留了人体在三维空间中的姿态、形状信息,不受视角限制,为后续高质量视频生成提供了更稳定、精确的“动作蓝图”。
Q3:MACE-Dance是否支持对已有的舞蹈动作进行编辑修改?
支持。其Motion Expert模块内置了动作编辑功能,用户可对生成的动作序列进行时序补全、局部关节编辑或轨迹引导编辑等操作,无需重新训练模型,使用灵活便捷。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
腾讯收购喜马拉雅股权获批官方回应
5月12日,国家市场监管总局发布的一则审查结果公告,引发了互联网行业的广泛关注。公告正式宣布,附加限制性条件批准腾讯控股有限公司收购喜马拉雅公司股权案。这一审批决定,其意义远超单一商业并购的许可,更深层的监管意图在于维护中国在线音频与网络音乐播放平台市场的良性竞争格局,有效预防平台经济领域可能出现的
小米手环10 Pro陶瓷版发布 搭载亲肤氟橡胶表带
小米集团合伙人、总裁,手机部与品牌业务负责人卢伟冰今日正式宣布,小米手环10 Pro将推出全新陶瓷材质版本。 根据官方信息,这款陶瓷版采用温润的白色设计,搭配氟橡胶表带。材质选择兼顾高级质感与佩戴舒适性,旨在实现优雅外观与柔软贴合的平衡。以下为官方发布的产品实拍图集: 官方率先释出多张局部细节图,经
小米手环10 Pro本月发布 铝合金机身仅重21.6克
备受期待的小米手环10 Pro即将在本月正式发布,标志着小米智能穿戴产品线迎来又一次重要升级。官方信息显示,这款新品在工艺设计、佩戴体验及核心功能上均有显著优化。 小米手环10 Pro在机身设计上实现了新的突破。它采用了轻质铝合金材质中框,将厚度精减至9 7毫米,整体重量仅为21 6克,相比前代更为
陈奇辟谣离职传闻 千里智驾核心技术团队持续攻坚
千里智驾CEO陈奇通过朋友圈否认离职传闻,表示正全力为公司发展拼搏。公司官方声明也确认,陈奇及核心研发骨干正带领团队推进技术研发与产品迭代,各项业务有序开展。团队军心稳定,业务未受传闻影响。
泰坦军团仓刀X276M显示器评测:2K 565Hz与720P 1060Hz双模切换体验
电竞显示器市场迎来全新“帧率王者”。泰坦军团最新推出的27英寸旗舰机型“仓刀 X276M”,在京东平台正式发售,其刷新率参数突破行业常规:支持2K分辨率下565Hz原生高刷,并可一键切换至720P分辨率下的1060Hz极致模式。官方指导价为6110元,结合部分地区以旧换新及平台补贴后,实际到手价约5
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

