数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

热点详情

阿里通义万相发布亚秒级同步AI视频通话基础模型

AI热点日报时间：2026-07-01

热点解读

一、Wan Streamer是什么Wan Streamer，这个名字最近在实时音视频交互领域引起了广泛关注。它是阿里通义实验室Wan团队推出的一款原生流式、端到端全双工实时音视频交互基础模型。目前v0 1版本还处于概念验证原型阶段，输出分辨率仅为192p，主要用于验证技术路线的可行性。官方暂时没有开

一、Wan Streamer是什么

Wan Streamer，这个名字最近在实时音视频交互领域引起了广泛关注。它是阿里通义实验室Wan团队推出的一款原生流式、端到端全双工实时音视频交互基础模型。目前v0.1版本还处于概念验证原型阶段，输出分辨率仅为192p，主要用于验证技术路线的可行性。官方暂时没有开源模型权重和工程代码，仅公开了预录制的中英文虚拟人对话演示视频和实时联网对话录屏，供业界了解其初步效果。

过去的AI交互系统，大多是由ASR、LLM、TTS、数字人渲染等多个模块拼接而成。延迟高、音画不同步、难以实时插话——这些问题相信大家都不陌生。而Wan Streamer采用了更为激进的方案：通过一个统一的Transformer架构，将文本、音频、视频的输入与输出进行一体化建模，省去了外部语音识别、语音合成、动画渲染等独立模块。它能模拟真人视频通话——边听、边看、边思考、边回应，并且在AI回复的过程中，它仍持续感知用户的画面和语音，支持随时打断和插话，交互体验因此大幅提升。

Wan Streamer：阿里通义万相推出的亚秒级同步AI视频通话基础模型

二、功能特色

单模型一体化全模态交互
传统多模块级联流水线被彻底摒弃。文本、音频、视频的感知与生成，全部在一个Transformer中完成，无需VAD、语音识别、大语言模型、语音合成、动画生成等独立组件。从底层消除了多模块间数据传输带来的同步误差，架构更加简洁高效。
原生全双工实时对话
该系统复刻了人类对话的自然逻辑：AI在输出虚拟人回复的同时，仍持续捕捉用户的表情和语音。用户可以随时打断、中途调整AI的说话内容。传统的“一问一答”回合制交互模式，在这里被彻底颠覆。
极致低延迟亚秒级响应
模型自身的处理延迟仅为200ms，加上350ms的双向网络传输，整个端到端交互总延时约为550ms——稳稳控制在1秒以内。这与真人视频通话的节奏基本一致。
25fps流畅同步音视频输出
视频生成帧率稳定在25fps，最小流式处理单元仅有160ms。语音、虚拟人面部表情、肢体动作均实现原生同步，不存在口型对不上、声音与画面脱节等常见问题。
多语言、多人物、多场景自适应生成
同一个模型能够生成不同性别、音色、外貌的虚拟人。支持中英文双语实时对话，并能自适应居家、车内、室内办公等多种视频通话场景。
分布式低延迟推理部署方案
自研的Thinker–Performer双GPU并行推理架构，将感知、解码、音视频生成等流水线并行运行，大幅提升硬件资源利用率，确保长时间稳定实时交互。

三、技术细节

3.1 整体架构：统一交错因果序列建模

模型将用户的输入（文本/音频/视频token）与AI的输出（文本/音频/视频token）交错拼接成一条连续的因果序列。关键依赖块因果注意力（block-causal attention） 实现增量流式生成——它仅利用当前和过去的信息进行预测，不依赖未来帧数据，从而满足实时流式处理的需求。

全链路均采用因果化组件：因果音视频VAE、因果编码器、因果解码器。新采集的用户画面与语音即时编码并加入上下文，无需等待完整片段，这支撑了160ms的超短流式单元粒度。

3.2 音视频联合生成方案

文本部分仍采用传统的离散token自回归预测进行训练。音频和视频则被映射到连续隐空间，并借助条件流匹配（Flow Matching） 进行联合降噪生成。语音、人脸动作、画面同步的优化在此一步完成，避免了生成后二次对齐修复带来的额外延迟与失真。所有生成的隐变量直接追加到对话上下文中，确保交互历史状态持续更新。

3.3 Thinker–Performer双GPU推理架构（部署核心）

训练时它是一个完整的Transformer，但在线上实时推理时被拆分为两大模块，跨两张GPU并行计算，互不阻塞：

Thinker（思考端）：负责用户音视频编码、KV缓存更新、上一轮音视频解码输出、语言语义推理。
Performer（生成端）：仅运行音视频隐空间的流匹配求解器，专注于生成下一帧的虚拟人画面和语音。
两端共享统一的KV缓存上下文，感知、解码、隐变量生成、网络通信在相邻的流式单元中流水线重叠执行。结合CUDA Graph捕获和算子编译优化，模型侧延迟稳定控制在200ms。

3.4 全双工交互底层逻辑

实时交互被建模为无限的连续因果流，感知与生成进程同步运行。用户说话时，虚拟人同步生成倾听神态；AI在回复过程中，持续识别用户的打断信号，并立即调整输出内容。输入的音视频数据流实时影响着输出的语音和面部动作——这才是真正的全双工交互。

四、应用场景

实时虚拟人客服
在线视频客服、直播数字人接待等场景中，用户可随时插话咨询，虚拟人同步口型和动作。低延迟交互显著提升了客户沟通的真实感与满意度。
AI远程陪伴对话
中英文双语虚拟陪伴、情绪倾诉、日常闲聊。在居家视频通话场景下，虚拟人的神态和情绪语音都相当自然，带来亲切的陪伴体验。
线上教育虚拟助教
一对一实时视频教学中，学生可以随时打断提问。虚拟助教同步讲解并配合表情动作，亚秒级反馈不打断课堂节奏，提升教学互动性。
数字人直播互动
实时直播的虚拟主播，可同步识别观众连麦画面和语音，即时回应互动。传统数字人高延迟、无法实时打断的难题，在这里得到了有效解决。
智能终端实时交互助手
车载、智能家居等场景下的视频交互AI。在车内这种需要低延迟音视频对话的环境中，它能实时响应用户指令并展示虚拟形象，提升智能体验。

五、常见问题解答（FAQ）

Q1：Wan Streamer v0.1是否开源？可以本地部署吗？

A：v0.1是概念验证研究原型，模型权重、训练代码和推理工程尚未开源，目前不支持个人本地部署。官方仅开放了演示视频和学术论文，供行业研究参考。

Q2：Wan Streamer和普通数字人直播系统最大区别是什么？

A：传统数字人采用多模块拼接——语音识别、大模型、语音合成、动画渲染各管各的，每层增加延迟，还容易音画错位。Wan Streamer仅用一个Transformer完成全部功能，原生全双工可实时打断，总延迟控制在0.6秒内，音画同步由模型底层联合优化，两者有本质差别。

Q3：Wan Streamer的200ms延迟是指什么？包含网络延迟吗？

A：200ms是纯模型侧处理延迟，仅涵盖编码、推理、音视频生成解码的耗时。加上350ms双向网络传输延迟，用户实际感受到的完整交互总延迟约为550ms。

Q4：Wan Streamer支持哪些语言，虚拟人形象能否自定义？

A：目前原生支持中文和英文双语交互。v0.1版本内置了多套预设虚拟人男女形象和音色，论文中未开放自定义形象的训练接口，自定义功能属于后续迭代规划。

Q5：Wan Streamer v0.1分辨率只有192p，画质为什么不高？

A：v0.1的核心目标是验证端到端流式全双工交互的技术路线，并非商用高画质版本。官方明确指出架构可以扩展至更高分辨率，高清版是后续发展方向。

Q6：全双工交互具体是什么功能，实际使用有什么优势？

A：全双工意味着AI在生成回复的同时持续感知用户的画面和语音，用户可中途插话或打断。传统回合制AI必须等它说完才能提问，交互生硬。而Wan Streamer的对话逻辑贴近真人视频通话，沟通自然得多。

六、相关链接

Wan Streamer官方网站：https://wan-streamer.com/
学术论文arXiv原文地址：https://arxiv.org/abs/2606.25041

七、总结

Wan Streamer是业内首款基于单一Transformer架构打造的原生流式端到端全双工实时音视频交互基础模型。它彻底打破了传统多模块拼接AI交互系统延迟高、音画不同步、无法实时打断的行业瓶颈。依靠因果流式建模、条件流匹配音视频联合生成、Thinker–Performer分布式推理三大核心技术，实现了200ms模型侧低延迟和亚秒级完整交互反馈。原生支持视频感知、同步虚拟人输出、双语实时对话——这些能力为实时虚拟客服、AI陪伴、线上教育、数字人直播等场景提供了一套全新的底层技术方案，也为全双工多模态实时交互模型建立了一条完整可行的技术验证路线。

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：阿里通义万相发布亚秒级同步AI视频通话基础模型要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://www.aipuzi.cn/ai-news/wan-streamer.html

AI视频

上一篇：谷歌云上架SandboxAQ科学AI模型加速新药研发与半导体材料开发

下一篇：OpenAI联手PE投资40亿美元聚焦硅谷新职位FDE

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。