微软开源VibeVoice-1.5B音频模型:支持中文生成,90分钟4人对话语音一键合成

8月27日消息,科技媒体marktechpost在8月25日发布报道称,微软正式推出开源文本转语音(TTS)模型VibeVoice-1.5B。该模型具备多项突破性能力,可一次性生成最长90分钟、最多支持4位不同说话者的自然语音,并具备跨语言合成与歌声生成功能。
从架构设计来看,VibeVoice-1.5B基于参数量达15亿的Qwen2.5语言模型构建,创新性地融合了声学与语义双分词器(Tokenizer),能够以低至7.5Hz的帧率高效处理语音数据。
其声学分词器采用σ-VAE结构,可将24kHz原始音频压缩至原本的1/3200;语义分词器则借助语音识别代理任务进行训练,更好地保留语义信息。在解码端,模型使用1.23亿参数的扩散解码器,结合分类器自由引导与DPM-Solver算法,显著提升语音质量和细节还原能力。
为确保生成长篇语音时的连贯性与说话人一致性,该模型在训练中逐步扩展上下文长度,从4k扩展至65k Tokens。其架构天然支持多说话人轮流发言,可模拟真实对话场景,并具备流式生成长音频的能力,为未来实现实时TTS应用打下基础。
不过VibeVoice-1.5B目前仍存在一些限制。它仅支持英语和中文,其他语言的合成效果可能不够准确;无法处理说话人语音重叠,也不支持背景音效或音乐的生成。微软特别强调,禁止将该模型用于声音冒充、虚假信息传播或身份验证绕过等用途,并呼吁用户遵守法律法规,明确标注AI生成内容来源。
微软表示,该模型主要面向科研与开发者社区,适用于播客制作、对话式AI、语音内容生成等场景。未来计划推出参数量更大的7B版本,进一步提升实时合成的响应速度与音质表现,拓宽其应用边界。
附参考地址:
微软VibeVoice-1.5B技术报告
Hugging Face
GitHub
免责声明
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
最新文章
北京暴雨后现双彩虹奇观,市民驻足拍摄刷屏网络
8月19日消息,据媒体报道,北京傍晚时分迎来了一场降雨,雨过天晴之后出现了双彩虹,绚丽的虹桥横跨天际,与城市建筑交相辉映,众多市民驻足拍照。虽然彩虹是一种很常见的自然景象,但每当天空升起美丽的彩虹时
小米智能门锁4 Pro发布:AI掌静脉+3D人脸识别,售价2499元
8 月 19 日消息,小米商城上架了小米智能门锁 4 Pro,作为小米门锁 4 系列的首款产品,其定价为 2499 元,拥有豪华的外观设计、强大的功能。注意到,小米智能门锁 4 Pro 在外观上进
小米卢伟冰:不参与家电价格战,聚焦长期价值而非短期排名
8月19日消息,今日,小米集团发布2025年第二季度财报,该季度智能大家电收入同比大增66 2%,实现量价齐升。其中,小米空调出货量超540万台,同比增长超60%,创历史新高。据媒体报道,小米集团总
马斯克建议漫威:改编电子游戏IP或成超英电影新出路
8 月 19 日消息,风投机构 Founders Fund(创始人基金)的 CMO Mike Solana 今天在 X 平台表示,漫威电影过去的表现良好,但现在表现不佳,且漫威现在“很糟糕”。随后
北方暴雨为何总赶上下班点?气象专家解析背后成因
8月19日消息,据报道,中央气象台今天发布暴雨黄色预警,预计今明两天,华北、东北等地降雨频繁,局地雨强较大。值得注意的是,此次北方降雨过程很多时候都是在夜间降雨。有网友问:北方的雨为啥总耽误下班?气
热门推荐
热门教程
更多- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
















