阿里通义万相发布亚秒级同步AI视频通话基础模型
一、Wan Streamer是什么Wan Streamer,这个名字最近在实时音视频交互领域引起了广泛关注。它是阿里通义实验室Wan团队推出的一款原生流式、端到端全双工实时音视频交互基础模型。目前v0 1版本还处于概念验证原型阶段,输出分辨率仅为192p,主要用于验证技术路线的可行性。官方暂时没有开
一、Wan Streamer是什么
Wan Streamer,这个名字最近在实时音视频交互领域引起了广泛关注。它是阿里通义实验室Wan团队推出的一款原生流式、端到端全双工实时音视频交互基础模型。目前v0.1版本还处于概念验证原型阶段,输出分辨率仅为192p,主要用于验证技术路线的可行性。官方暂时没有开源模型权重和工程代码,仅公开了预录制的中英文虚拟人对话演示视频和实时联网对话录屏,供业界了解其初步效果。
过去的AI交互系统,大多是由ASR、LLM、TTS、数字人渲染等多个模块拼接而成。延迟高、音画不同步、难以实时插话——这些问题相信大家都不陌生。而Wan Streamer采用了更为激进的方案:通过一个统一的Transformer架构,将文本、音频、视频的输入与输出进行一体化建模,省去了外部语音识别、语音合成、动画渲染等独立模块。它能模拟真人视频通话——边听、边看、边思考、边回应,并且在AI回复的过程中,它仍持续感知用户的画面和语音,支持随时打断和插话,交互体验因此大幅提升。

二、功能特色
单模型一体化全模态交互
传统多模块级联流水线被彻底摒弃。文本、音频、视频的感知与生成,全部在一个Transformer中完成,无需VAD、语音识别、大语言模型、语音合成、动画生成等独立组件。从底层消除了多模块间数据传输带来的同步误差,架构更加简洁高效。原生全双工实时对话
该系统复刻了人类对话的自然逻辑:AI在输出虚拟人回复的同时,仍持续捕捉用户的表情和语音。用户可以随时打断、中途调整AI的说话内容。传统的“一问一答”回合制交互模式,在这里被彻底颠覆。极致低延迟亚秒级响应
模型自身的处理延迟仅为200ms,加上350ms的双向网络传输,整个端到端交互总延时约为550ms——稳稳控制在1秒以内。这与真人视频通话的节奏基本一致。25fps流畅同步音视频输出
视频生成帧率稳定在25fps,最小流式处理单元仅有160ms。语音、虚拟人面部表情、肢体动作均实现原生同步,不存在口型对不上、声音与画面脱节等常见问题。多语言、多人物、多场景自适应生成
同一个模型能够生成不同性别、音色、外貌的虚拟人。支持中英文双语实时对话,并能自适应居家、车内、室内办公等多种视频通话场景。分布式低延迟推理部署方案
自研的Thinker–Performer双GPU并行推理架构,将感知、解码、音视频生成等流水线并行运行,大幅提升硬件资源利用率,确保长时间稳定实时交互。
三、技术细节
3.1 整体架构:统一交错因果序列建模
模型将用户的输入(文本/音频/视频token)与AI的输出(文本/音频/视频token)交错拼接成一条连续的因果序列。关键依赖块因果注意力(block-causal attention) 实现增量流式生成——它仅利用当前和过去的信息进行预测,不依赖未来帧数据,从而满足实时流式处理的需求。
全链路均采用因果化组件:因果音视频VAE、因果编码器、因果解码器。新采集的用户画面与语音即时编码并加入上下文,无需等待完整片段,这支撑了160ms的超短流式单元粒度。
3.2 音视频联合生成方案
文本部分仍采用传统的离散token自回归预测进行训练。音频和视频则被映射到连续隐空间,并借助条件流匹配(Flow Matching) 进行联合降噪生成。语音、人脸动作、画面同步的优化在此一步完成,避免了生成后二次对齐修复带来的额外延迟与失真。所有生成的隐变量直接追加到对话上下文中,确保交互历史状态持续更新。
3.3 Thinker–Performer双GPU推理架构(部署核心)
训练时它是一个完整的Transformer,但在线上实时推理时被拆分为两大模块,跨两张GPU并行计算,互不阻塞:
Thinker(思考端):负责用户音视频编码、KV缓存更新、上一轮音视频解码输出、语言语义推理。
Performer(生成端):仅运行音视频隐空间的流匹配求解器,专注于生成下一帧的虚拟人画面和语音。
两端共享统一的KV缓存上下文,感知、解码、隐变量生成、网络通信在相邻的流式单元中流水线重叠执行。结合CUDA Graph捕获和算子编译优化,模型侧延迟稳定控制在200ms。
3.4 全双工交互底层逻辑
实时交互被建模为无限的连续因果流,感知与生成进程同步运行。用户说话时,虚拟人同步生成倾听神态;AI在回复过程中,持续识别用户的打断信号,并立即调整输出内容。输入的音视频数据流实时影响着输出的语音和面部动作——这才是真正的全双工交互。
四、应用场景
实时虚拟人客服
在线视频客服、直播数字人接待等场景中,用户可随时插话咨询,虚拟人同步口型和动作。低延迟交互显著提升了客户沟通的真实感与满意度。AI远程陪伴对话
中英文双语虚拟陪伴、情绪倾诉、日常闲聊。在居家视频通话场景下,虚拟人的神态和情绪语音都相当自然,带来亲切的陪伴体验。线上教育虚拟助教
一对一实时视频教学中,学生可以随时打断提问。虚拟助教同步讲解并配合表情动作,亚秒级反馈不打断课堂节奏,提升教学互动性。数字人直播互动
实时直播的虚拟主播,可同步识别观众连麦画面和语音,即时回应互动。传统数字人高延迟、无法实时打断的难题,在这里得到了有效解决。智能终端实时交互助手
车载、智能家居等场景下的视频交互AI。在车内这种需要低延迟音视频对话的环境中,它能实时响应用户指令并展示虚拟形象,提升智能体验。
五、常见问题解答(FAQ)
Q1:Wan Streamer v0.1是否开源?可以本地部署吗?
A:v0.1是概念验证研究原型,模型权重、训练代码和推理工程尚未开源,目前不支持个人本地部署。官方仅开放了演示视频和学术论文,供行业研究参考。
Q2:Wan Streamer和普通数字人直播系统最大区别是什么?
A:传统数字人采用多模块拼接——语音识别、大模型、语音合成、动画渲染各管各的,每层增加延迟,还容易音画错位。Wan Streamer仅用一个Transformer完成全部功能,原生全双工可实时打断,总延迟控制在0.6秒内,音画同步由模型底层联合优化,两者有本质差别。
Q3:Wan Streamer的200ms延迟是指什么?包含网络延迟吗?
A:200ms是纯模型侧处理延迟,仅涵盖编码、推理、音视频生成解码的耗时。加上350ms双向网络传输延迟,用户实际感受到的完整交互总延迟约为550ms。
Q4:Wan Streamer支持哪些语言,虚拟人形象能否自定义?
A:目前原生支持中文和英文双语交互。v0.1版本内置了多套预设虚拟人男女形象和音色,论文中未开放自定义形象的训练接口,自定义功能属于后续迭代规划。
Q5:Wan Streamer v0.1分辨率只有192p,画质为什么不高?
A:v0.1的核心目标是验证端到端流式全双工交互的技术路线,并非商用高画质版本。官方明确指出架构可以扩展至更高分辨率,高清版是后续发展方向。
Q6:全双工交互具体是什么功能,实际使用有什么优势?
A:全双工意味着AI在生成回复的同时持续感知用户的画面和语音,用户可中途插话或打断。传统回合制AI必须等它说完才能提问,交互生硬。而Wan Streamer的对话逻辑贴近真人视频通话,沟通自然得多。
六、相关链接
Wan Streamer官方网站:https://wan-streamer.com/
学术论文arXiv原文地址:https://arxiv.org/abs/2606.25041
七、总结
Wan Streamer是业内首款基于单一Transformer架构打造的原生流式端到端全双工实时音视频交互基础模型。它彻底打破了传统多模块拼接AI交互系统延迟高、音画不同步、无法实时打断的行业瓶颈。依靠因果流式建模、条件流匹配音视频联合生成、Thinker–Performer分布式推理三大核心技术,实现了200ms模型侧低延迟和亚秒级完整交互反馈。原生支持视频感知、同步虚拟人输出、双语实时对话——这些能力为实时虚拟客服、AI陪伴、线上教育、数字人直播等场景提供了一套全新的底层技术方案,也为全双工多模态实时交互模型建立了一条完整可行的技术验证路线。
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:阿里通义万相发布亚秒级同步AI视频通话基础模型要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点在招聘这个行业中,数据录入的繁琐程度相信大家都有切身体会。每天需要从各类网页、社交平台、招聘站点中搜寻候选人信息,再手动一条条录入系统,既耗时费力又容易出错。今天要介绍的这款Kwal Chrome插件,正是为了彻底解决这一痛点而设计的。什么是 Kwal Chrome 扩展程序 插件?该插件的定位十分
网红经济正在进化——Twinning AI带来的玩法是:粉丝可以直接跟你的人工智能分身聊天,而你,每次互动都能收到真金白银。它集成了专业的声音克隆、文本和语音消息,以及数据分析能力,让粉丝互动变得既有趣又能变&现。 什么是Twinning AI? 简单来说,Twinning AI允许网红创建一个属于
在跨境电商和全球业务快速发展的今天,发票与财务管理工具的重要性日益凸显。AI技术的加入,让这些原本繁琐的流程实现了质的飞跃。Invoicemint 正是这样一款专注全球企业的智能发票与财务管理软件——它不只是一个简单的发票生成器,而是一套覆盖从开票、对账到税务合规、催款的全链路解决方案。 什么是In
想象一下,你随时都能找到一个倾听者——不带任何偏见,不会感到疲惫,而且完全匿名。这听起来像科幻小说里的情节,但现在已经成为现实。MyWhy 就是这样一款 AI 心理治疗应用,它将专业的情感支持装进你的口袋,让心理健康服务不再是奢侈品,而是像打开手机一样触手可及。什么是MyWhy?简单来说,MyWhy
- 日榜
- 周榜
- 月榜
热点快看
