阿里开源实时全双工多模态模型Wan-Streamer

AI热点日报时间：2026-07-01

热点解读

阿里达摩院开源Wan-Streamer，一种端到端实时全双工多模态基础模型。其统一因果Transformer架构整合文本、音频、视频Token，实现亚秒级双向视频交互，模型响应延迟200毫秒，端到端总延迟550毫秒，稳定输出25FPS同步音视频。支持实时打断、多模态输入理解及长对话一致性。

Wan-Streamer是什么

简单来说，Wan-Streamer是阿里达摩院开源的一个端到端实时全双工多模态基础模型。它最大的特点，就是通过一个统一的因果Transformer架构，把文本、音频、视频这些不同模态的输入输出Token全部整合到同一条因果序列里。这意味着它能实现真正的亚秒级实时双向视频交互——模型侧响应延迟只有200毫秒，端到端总延迟控制在550毫秒，稳定输出25FPS的同步音视频。听起来很抽象？没关系，接下来我们把它的方方面面拆开看。

Wan-Streamer的主要功能

实时音视频对话：支持用户与AI数字人进行双向视频通话，AI能同步输出语音和面部表情，而不是干巴巴地只说话。
全双工交互：这可不是那种“你问我答、等你说完”的半双工模式。用户可以随时打断，AI也能主动提问，对话节奏和自然度都接近真人。
多模态输入理解：真正意义上的“眼观六路耳听八方”——能同时理解用户的视频画面、语音和文字输入，信息维度更丰富。
流式分片生成：采用160ms的短时流式分片，边接收信息边生成反馈，不需要等全帧数据都拿到才开始处理。
长时序一致性：通过全局KV上下文缓存，保证在长时间对话中，数字人的人物形象、语气都能保持稳定统一，不会聊着聊着就变了一张脸。

Wan-Streamer的技术原理

当然，要实现上面的功能，技术底子必须扎实。几个关键设计值得重点关注：

统一单Transformer流式架构：把用户的画面、人声、文字输入和AI的语音、表情、字幕输出，全部交错排列成一条因果Token流。文本部分采用自回归预测，音视频部分则通过流匹配条件联合生成。
全因果技术栈设计：从编码器、解码器、VAE到注意力层，整个技术栈都遵循因果约束，只使用历史时序信息来预测下一个单元，核心块的因果注意力限制了未来Token不可见，确保了信息处理的实时性。
三段式训练流程：多任务预训练阶段混合图文语音对话数据；全双工微调阶段学习倾听、插话、停顿等交互行为；流式蒸馏阶段则将大教师模型轻量化，并采用滚动自强制策略优化小模型。
Thinker-Performer双GPU推理：一个叫Thinker，负责处理用户音视频编码与上下文更新；另一个叫Performer，负责执行流匹配音视频去噪生成。两者共享上下文，并行执行，各司其职。

如何使用Wan-Streamer

需要注意的是，截至当前，Wan-Streamer仅发布了论文与项目官网的演示Demo，完整的代码和模型权重尚未开源，所以暂时还无法进行本地部署。耐心等待后续更新吧。

Wan-Streamer的核心优势

超低延迟：模型侧200ms响应，端到端仅550ms，远低于行业普遍1秒以上的水平。你可能会问，200ms有多快？这么说吧，从一个问题脱口而出到AI开始回应，几乎在同一瞬间。
端到端一体化：单一模型完成感知、理解、生成全流程，不再需要ASR、LLM、TTS、渲染等多个模块拼凑拼接，架构简洁，问题也少。
全双工实时交互：支持边听边回应、中途打断，交互的自然度完全可以媲美真人对话。
音视频同步：语音与面部动作是同步约束生成的，不需要后期再去对齐修复，口型零错位，这才是真正意义上的“从声音到表情，一步到位”。
长对话稳定性：全局KV上下文保证了人物容貌与语气在长时间对话中不漂移，不会出现聊到一半就变了个人。

Wan-Streamer的项目地址

项目官网：https://wan-streamer.com/
arXiv技术论文：https://arxiv.org/pdf/2606.25041

Wan-Streamer的同类竞品对比

从技术指标来看，Wan-Streamer和目前市面上另一款典型产品——GPT-4o Realtime，存在不少差异。直接上一张对比表会更直观：

对比维度	Wan-Streamer	GPT-4o Realtime
开发方	阿里达摩院	OpenAI
视频输入	✅ 支持	✅ 支持
同步视频输出	✅ 数字人视频	❌ 仅语音
全双工交互	✅ 实时打断/插话	⚠️ 部分支持
端到端架构	✅ 单一Transformer	❌ ASR+LLM+TTS 拼接
模型响应延迟	200ms	230ms
端到端总延迟	~0.55s	~0.8s
渲染延迟	含端到端内	不含（仅语音）
口型同步	✅ 原生同步生成	❌ 无视频输出
长时序一致性	✅ 全局KV缓存	⚠️ 依赖外部系统
当前分辨率	192p（原型）	无视频输出

从表格能看出来，Wan-Streamer在全双工交互、视频输出与口型同步方面有明显优势，尤其在多模态视频对话的一致性上领先。当然，GPT-4o Realtime在纯语音场景下仍然有它的积累。

Wan-Streamer的应用场景

虚拟客服：银&行、电商等场景可以部署一个面对面的实时视频咨询助手，而不是冷冷的语音菜单。
直播互动：AI主播可以实时回应观众弹幕与语音提问，互动体验提升不止一个档次。
AI陪伴：情感陪伴数字人支持实时视频聊天，在远程陪伴或心理疏导领域有很大想象空间。
游戏NPC：交互式游戏角色能够与玩家进行实时视频对话，游戏沉浸感自然更强。
在线教育：AI虚拟教师进行实时视频答疑与个性化辅导，远胜于冷冰冰的文字答疑。

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：阿里开源实时全双工多模态模型Wan-Streamer要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://ai-bot.cn/wan-streamer/

基础模型

上一篇：基于人工智能的图像分类算法

下一篇：学会如何高效预期DeepSeek R2的实用技巧与全面指南

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

延伸阅读

iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态真我828真粉节揭晓：10000mAh超大电池手机即将亮相？苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套刘志强：京东方坚持开放合作，拒绝低质低价竞争 Redmi K90系列全系标配5000万长焦与3D超声波指纹，配置再升级 vivo X300系列曝光：天玑9500+2亿像素主摄，长焦微距实力升级

日榜
周榜
月榜

01 / 08-26iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 02 / 08-26iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 03 / 08-26真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 04 / 08-26苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别 05 / 08-27对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套

01 / 本周TeQatlas AI Chrome扩展为VC和天使投资人提供即时洞察 02 / 本周企业实施RAG常见误解澄清及升级预告 03 / 本周微软AutoGen Studio低代码开发智能体 04 / 本周人工智能产品将有望广泛应用于整个医疗体系 05 / 本周未来人工智能发展的主要影响

01 / 本月TeQatlas AI Chrome扩展为VC和天使投资人提供即时洞察 02 / 本月企业实施RAG常见误解澄清及升级预告 03 / 本月微软AutoGen Studio低代码开发智能体 04 / 本月人工智能产品将有望广泛应用于整个医疗体系 05 / 本月未来人工智能发展的主要影响

热点快看

07-01 20:35TeQatlas AI Chrome扩展为VC和天使投资人提供即时洞察 07-01 19:58企业实施RAG常见误解澄清及升级预告 07-01 19:58微软AutoGen Studio低代码开发智能体 07-01 19:58人工智能产品将有望广泛应用于整个医疗体系 07-01 19:58未来人工智能发展的主要影响

热点追踪

持续追踪iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 持续追踪iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 持续追踪真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 持续追踪苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别