MultiTalk模型解析：98.7%语音视觉对齐精度的多角色对话SOTA

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

MultiTalk模型解析：98.7%语音视觉对齐精度的多角色对话SOTA

热心网友时间：2026-01-08

转载

MultiTalk技术框架的核心是一个基于DiT（扩散变换器）架构的视频扩散模型。

由中山大学、美团和港科大联合开源的MultiTalk项目，能够生成多虚拟人物对话视频。这项技术在实现语音与唇形同步方面达到了当前最优（SOTA）水平，并且支持通过提示词（prompt）来控制人物、物体与场景之间的交互。

论文介绍

近年来，音频驱动的人物动画技术发展迅猛，从极为逼真的说话头部（Talking Head）动画，到全身动作同步（Talking Body），已经能够生成高度自然的单人视频。然而，现有技术大多局限于单人场景，在面对多人对话视频生成时，主要面临三大挑战：

如何适配和处理多条音频流输入，准确区分并绑定不同人物对应的音频信号？当人物在画面中移动时，如何精准定位其运动区域？如何让生成的视频严格遵循文本描述中的复杂动作（如大幅度的肢体动作）？

方法概述

MultiTalk的核心骨架是一个基于DiT（Diffusion-in-Transformer）的视频扩散模型。传统的图像到视频（I2V）扩散模型通常并不原生支持音频输入。为了让模型学会“说话”，MultiTalk在每一个DiT块的文本交叉注意力层之后，新增了专门的模块，这些模块包含层归一化（LayerNorm）和音频交叉注意力机制，专门用于处理和整合音频条件信息。

传统方法若直接将多条音频流融合输入，容易导致人物与音频的错配问题。为此，MultiTalk提出了标签旋转位置编码（Label Rotary Position Embedding， L-RoPE），通过以下两个步骤实现精确绑定：

步骤1：自适应人物定位
利用参考图像的自注意力图（Self-Attention Map），计算人物区域与背景的相似度矩阵，从而将视频潜在特征（Video Latents）动态分割成不同人物对应的区域。步骤2：标签分配与旋转编码
为每个说话人分配独立的数值范围标签（例如Person1：0-4，Person2：20-24），并通过旋转位置编码（RoPE）技术，将标签信息映射到音频交叉注意力层。这样一来，具有相同标签的音频信号与视频区域会被关联激活，从而实现音频与人物唇部动作的精确绑定。

实验结果

结论

MultiTalk提出了一种音频驱动的多人物对话视频生成方案，其核心突破在于创新的L-RoPE方法。该方法结合了自适应人物定位和带有类别信息的标签编码，有效解决了多流音频注入和人物绑定这一核心难题。此外，其精心设计的部分参数训练和多任务训练策略，确保了模型在有限资源下，依然能够保持强大的指令遵循能力和高质量的视觉输出。MultiTalk首次将语音驱动的动画从单人场景成功扩展到多人交互场景，为虚拟主播、影音制作等领域提供了强有力的新一代工具。

来源:https://www.51cto.com/article/833782.html

上一篇：腾讯AI抽风骂人官方回应：非外包所为

下一篇： CES 2026前沿趋势：AI实用化将带来哪些关键升级？