音视频智能综述大模型时代AVI研究全景解析

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

音视频智能综述大模型时代AVI研究全景解析

热心网友时间：2026-05-24

转载

当前AI领域正迎来一个关键转折点：多模态模型不再局限于单一感官处理，而是朝着视听融合的协同智能方向加速演进。从GPT-4o实现实时音视频交互，到Veo-3、MovieGen、Seedance 2.0等新一代视频生成模型将原生音频轨道纳入核心生成流程，再到HappyHorse等探索性项目尝试音视频联合生成，甚至如OpenVLA这类机器人模型已具备“听声辨位”的环境感知能力。这些进展共同揭示了一个核心趋势：音视频智能正在从视觉模型的辅助功能，升级为下一代多模态基础模型的核心能力支柱。

NUS、牛津、微软等9机构发布音视频智能综述：系统梳理大模型时代的A VI研究全景

面对这一快速演进且高度交叉的技术领域，一份能够厘清发展脉络的“学术全景图”显得至关重要。近期，由新加坡国立大学牵头，联合牛津大学、多伦多大学、微软研究院等全球九所顶尖学术机构，共同发布了一份具有里程碑意义的综述报告。据研究者确认，这是首份系统性梳理“音视频大模型”技术演进、方法体系与应用前景的权威综述。该报告通过一张跨越十年的技术演化图谱，整合了原本分散的研究脉络，提出了统一的分类框架，梳理出三条清晰的发展主线，并指明了六大未来研究方向，相当于为整个领域绘制了一份详尽的“技术地图与导航指南”。

一、首份“音视频大模型”全景图

近年来，人工智能模型最显著的突破之一便是突破了单一模态的局限。从2024年GPT-4o将语音、视觉与文本统一到单一模型架构，到2025年Veo-3、MovieGen以实现“生成带原生音轨的高质量视频”为标志性目标，再到2026年Seedance 2.0、HappyHorse等模型致力于融合文本、图像、视频、音频等多重条件并同步输出。另一方面，Qwen-Omni将多模态对话推向了流式实时交互的新高度，而OpenVLA、π0等机器人模型，则开始整合语音指令、视觉感知与环境声音，实现更复杂的具身决策。

然而，与之对应的学术研究版图却长期处于碎片化状态。自动语音识别、数字人生成、拟音合成、视频配音、音频驱动视频、音画编辑、音视频问答……几乎每个子领域都形成了独立的技术范式、评估标准和术语体系。

正是在此背景下，这份由九家机构联合推出的综述，首次尝试为“音视频大模型”绘制一幅完整的全景蓝图。其核心价值在于，将音视频智能提升至与大语言模型同等重要的战略高度进行审视，旨在推动该领域从各自为战的孤立任务，走向统一、连贯且可扩展的通用研究框架。

二、十年演进：从“对齐”到“原生融合”

打开论文，首先呈现的是一张清晰的2016–2026音视频智能技术演进树。它将过去十年的发展历程系统性地划分为四个关键阶段：

阶段一（2016–2018）：音画对齐基础。 此时期的焦点是解决“同步匹配”问题，代表性工作如L3-Net、Wav2Lip等，主要致力于攻克唇音同步等基础对齐挑战。语音对话系统也多采用“语音识别+大语言模型+语音合成”的级联式流水线架构。

阶段二（2019–2022）：规模化表征学习。 随着XDC、VATT等基于大规模对比学习的方法兴起，模型学会了从海量无标注数据中提取更强大的跨模态通用表征。同时，AudioLDM、MusicGen等单模态生成模型开始蓬勃发展，SpeechGPT、Qwen-Audio等“音频原生”的大语言模型也崭露头角。

阶段三（2023–2024）：音视频内容创造。 研究重心转向生成与创造。无论是MBT、A V-HuBERT等理解模型，还是Diff-Foley、MusicInfuser等生成模型，都开始探索如何以一种模态（如音频）作为条件，来生成或精确控制另一种模态（如视频）。“A V控制器”的概念开始成为研究热点。

阶段四（2024–2026）：全能模态与具身智能。 这是当前的前沿探索阶段。ImageBind、Qwen-Omni等模型追求原生融合的多模态统一表征与推理能力；MovieGen、Veo-3、Seedance 2.0等则致力于端到端的同步音视频生成；而GPT-4o、OpenVLA等模型，正将高级视听理解能力与实时交互、具身决策相结合，迈向更通用的智能体。

值得注意的是，报告指出，从阶段一到阶段四，有六大核心挑战始终贯穿并不断演化：高保真音画同步、长时序一致性、精细化可控生成、可靠的评测体系、低实时延迟、以及安全与合规性。这些问题不会因模型规模扩大而自动解决，反而会随着应用场景从短视频扩展到长视频、实时交互乃至开放世界智能体，而变得愈加复杂和关键。

三、统一框架：感知、创造、交互

为了整合分散的领域，论文提出了一个统一的三主线分类法，这也是其核心理论贡献之一。

主线一：理解世界（感知与分析）。 涵盖所有从音视频信号中提取和理解信息的任务。包括经典的音视频语音识别、唇语识别、活跃说话人检测、声源定位，以及更复杂的音视频事件理解、跨模态检索和音视频问答。当前，基于大语言模型的长时间视频理解与因果推理，正成为新的前沿方向。

主线二：创造世界（生成与合成）。 这是目前最活跃的创新领域。论文将其细分为四类：条件生成、跨模态生成、联合音视频生成以及音画编辑。技术范围涵盖从为视频自动配音、拟音，到用音频驱动生成对应视频内容，再到直接生成带原生音轨的完整视频。报告特别强调，真正“原生联合”的音视频生成技术仍处于起步阶段。尽管MovieGen、Veo-3等模型已取得突破，但在跨身份一致性、长时序稳定性、复杂物理场景下的高保真同步生成与精细化编辑方面，仍是亟待攻克的技术难题。

主线三：与世界交互（对话与具身）。 这条主线包含两个重要分支。一是“音视频对话系统”，其形态从早期的级联式系统，演进到audio-native大模型，再发展到如GPT-4o般的原生多模态实时对话。二是“具身智能与机器人”，涉及基于视听信号的环境导航、场景理解与物理操作，对应着SoundSpaces、OpenVLA等研究方向。论文指出，交互的本质是带状态的实时闭环——感知、推理、行动必须在严格的延迟约束和动态用户意图下持续运行，这也解释了为何全能模态模型与具身智能会在当前时代交汇融合。

四、技术基石：表征、生成与架构范式

如果说三条主线回答了“做什么”，那么技术基石章节则深入阐述了“怎么做”。论文将核心技术栈拆解为三大组成部分：

表征技术。 核心是如何将连续的音频和视觉信号高效、无损地转化为模型可处理的离散化表示。在大模型时代，关键问题已从“特征能否对齐”升级为“采用何种分词（Tokenization）与嵌入（Embedding）方式，才能最高效地将高维音视频信号嵌入到大语言模型的语义空间中”。

生成范式。 报告系统梳理了VAE、GAN、扩散模型、自回归模型、掩码自回归模型五大主流生成范式在音视频领域的能力边界与组合策略。尤其深入分析了扩散模型/流匹配的技术演进、自回归模型在长序列视听生成中的进展，以及混合架构（如Diffusion+AR）的最新动向。

以大语言模型为中心的架构范式。 论文将当前主流的大模型架构归纳为几种典型范式：编码器+大语言模型（Encoder+LLM）、大语言模型+生成器（LLM+Generator）、统一的感知-生成一体化模型（Unified Perception-Generation Model），以及智能体系统与视觉语言动作模型（VLA）。这对于工业界构建“音视频版GPT-4o”级别的应用而言，无异于一份宝贵的架构选型指南。