阿里千问语音新模型:动物原声说人话
12月24日消息,阿里对其语音模型家族Qwen3-TTS进行了全新升级,同时推出了两款重磅新品:支持音色创造的Qwen3-TTS-VD和专注音色克隆的Qwen3-TTS-VC。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
在生成效果方面,这两款新模型的整体表现已经明显优于GPT-4o。
最新的Qwen3-TTS模型实现了用户自主设计声音和像素级音色模仿的强大能力,甚至连动物的“原声”也能被重现,开口说出人话。
其生成语音音色自然、效果稳定、效率极高,将有力推动语音大模型在有声小说、AI漫画、影視配音等多个专业领域的商业化应用。
其中,音色创造模型支持用户通过简单的自然语言描述,即可生成定制化的声音形象,具备极强的可控生成能力。
在指令遵循评测InstructTTS-Eval中,Qwen3-TTS的综合表现显著优于GPT-4o-mini-tts、Mimo-audio-7b-instruct等同类竞品。
而在强调表达一致性与沉浸感的角色扮演测试中,该模型的整体效果更是超越了Gemini-2.5-pro-preview-tts。

音色克隆模型则专注于“声音模仿”这一核心功能,仅需3秒的原始语音样本,便能精准复刻出原始声线。
在MiniMax TTS Multilingual Test Set测试集中,Qwen3-TTS-VC展现了其在多语言语音准确性与稳定性方面的显著优势。
其平均词错误率(WER)指标表现突出,整体结果全面优于MiniMax、ElevenLabs以及GPT-4o-Audio-Preview。

此外,Qwen3-TTS-VC还能自动生成英语、德语、意大利语、葡萄牙语、西班牙语、日语、韩语、法语、俄语等9种语言的语音。
更值得一提的是,它连动物的叫声也能复刻。用户只需录入家中宠物的原始叫声,就能利用模型让它“开口说人话”。
目前,两款模型均在阿里云百炼平台上架了Flash版本API,响应速度极快,完全能够满足工业级的语音合成需求。
千问语音生成模型系列Qwen3-TTS仍在持续升级,目前已支持50种音色、10大主流语言,以及闽南语、吴语、粤语、四川话、北京话、南京话、天津话、陕西话等8大方言,能够真实还原各地的口音特色与语言神韵。

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
特斯拉等科技巨头遭近一年最严重抛售:原因与影响
随着2月28日点燃的中东战火持续燃烧了一整个月,美股市场也出现了加速下跌的迹象,特别是曾经光芒万丈的科技巨头。截至周五收盘,纳斯达克指数本周累计下跌3 23%,创去年4月“关税冲击”以来最大单周跌幅
陌生电话勿先开口,防骗需知的5个关键细节
3月28日消息,随着人工智能语音合成技术的迅猛发展,声纹这一与指纹、人脸同样具有唯一性的生物特征,正成为新型电信诈骗的新突破口,这种高科技违法手段的隐蔽性已引发社会广泛关注。据媒体报道,在当前的技术
罗技鼠标广告引争议,店铺差评暴增劝退消费者
3月28日消息,知名外设厂商罗技近日在最新账号发布的一则视频引发了巨大的舆论争议。视频中出现的文字表述极具侮辱性,直白地宣称当产品降价时,消费者会像动物一样跑过来。这种傲慢且缺乏基本尊重的措辞,竟然
航空燃油价格一月翻倍,牵动全球飞行成本危机
即便远离中东战场,全球“能源大动脉”阻塞的苦果,正在引发一场蔓延全球的航空危机。截至发稿,从越南到新西兰的航空公司已经开始因航空燃油短缺而取消航班,欧盟和英国也可能在数周内陷入类似的境地。即便是全球
周鸿祎对话刘慈欣:软件行业两三年内将迎来剧变
3月28日消息,近日,在2026中国科幻大会上,360集团创始人周鸿祎与科幻作家刘慈欣、中国科学院高能物理研究所研究员张双南同台,就人工智能对人类文明的影响、AI与科学研究的融合、人类未来的生态位等
- 日榜
- 周榜
- 月榜
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程

