当前位置: 首页
AI
阿里通义千问语音模型新版发布:3秒录音复制9种语言及18种方言

阿里通义千问语音模型新版发布:3秒录音复制9种语言及18种方言

热心网友 时间:2025-12-16
转载

12月15日消息,据通义大模型官方公众号今日下午宣布,两款"百聆"语音模型现已正式开源,并且迎来了全面升级。据介绍,该模型只需3秒录音样本,就能让你的声音无缝切换多达9种通用语言和18种地方方言,同时还能精准复刻说话者的情绪——无论是普通话、粤语、日语、英语,还是开心、愤怒等语气,都能轻松驾驭。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

能力升级

Fun-CosyVoice3 模型升级:首次发声延迟降低50%,中英文混合语音识别准确率显著提升,新增支持9种语言、18种方言口音,并具备跨语种声音克隆与情感控制能力;

Fun-ASR 模型能力增强:在噪声环境下的识别准确率高达93%,新增歌词与演唱识别功能,支持31种语言自由混合输入、并覆盖多种方言口音,同时将流式识别模型的首字延迟降低至160毫秒。

正式开源

Fun-CosyVoice3(0.5B)开源:该模型提供零样本音色克隆能力,支持本地化部署与二次开发;

Fun-ASR-Nano(0.8B)开源:作为Fun-ASR的轻量化版本,推理成本更低,模型完全开源,支持本地部署与个性化微调。

根据最新了解,本次Fun-CosyVoice3大模型完成了多项关键升级:

首包延迟降低50%,支持双向流式合成,真正实现"输入即发声",适用于语音助手、直播配音、无障碍阅读等实时交互场景;

中英文混合词错误率相比前代大幅降低56.4%,无论是包含专业术语、大小写混排的文本,还是需要进行语码转换的句子,模型都能精准、自然地发音;

在零样本语音合成评测中,内容一致性与音色相似度全面提升,复杂场景下的字符错误率相对降低26%,效果已接近真人录音水平;

支持9种通用语言、18种中文方言、9种情感控制,并具备跨语种音色复制能力——仅需一段普通话录音样本,即可生成粤语、日语、英语等多种语言的语音,同时保持高度一致的音色特征。

而此次开源的Fun-CosyVoice3-0.5B模型提供了零样本音色克隆功能,用户只需提供一段3秒以上的参考音频,即可复制其音色并合成新的语音内容,并且支持本地部署和二次开发。

Fun-ASR则致力于让AI"听得懂"。其基于数千上万小时真实语音数据训练,已在钉钉"AI听记"、视频会议等场景中大规模落地。最新版本重点优化了嘈杂环境鲁棒性、多语言自由混合输入、中文方言与口音覆盖、歌词识别、定制化能力,并将流式识别模型的首字延迟降低到160毫秒。

阿里通义百聆推出语音模型新版本:3秒录音即可“复制”9种语言、18种方言

Fun-CosyVoice3-0.5B 开源地址:

https://github.com/FunAudioLLM/CosyVoice(GitHub)

https://funaudiollm.github.io/cosyvoice3/(GitHub.io)

https://www.modelscope.cn/studios/FunAudioLLM/Fun-CosyVoice3-0.5B(体验demo)

https://modelscope.cn/models/FunAudioLLM/Fun-CosyVoice3-0.5B-2512(国内模型仓库)

https://huggingface.co/FunAudioLLM/Fun-CosyVoice3-0.5B-2512(海外模型仓库)

Fun-ASR-Nano-0.8B 开源地址:

https://github.com/FunAudioLLM/Fun-ASR(GitHub)

https://funaudiollm.github.io/funasr/(GitHub.io)

https://modelscope.cn/studios/FunAudioLLM/Fun-ASR-Nano/(国内体验demo)

https://huggingface.co/spaces/FunAudioLLM/Fun-ASR-Nano(海外体验demo)

https://modelscope.cn/models/FunAudioLLM/fun-asr-nano-2512(国内模型仓库)

https://huggingface.co/FunAudioLLM/Fun-ASR-Nano-2512(海外模型仓库)

来源:https://www.ithome.com/0/905/119.htm

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
1.4 万亿词元!阿里 Qwen3.6-Plus 刷新全球最大 AI 聚合平台 OpenRouter 日调用量纪录

1.4 万亿词元!阿里 Qwen3.6-Plus 刷新全球最大 AI 聚合平台 OpenRouter 日调用量纪录

1 4 万亿词元!阿里 Qwen3 6-Plus 刷新全球最大 AI 聚合平台 OpenRouter 日调用量纪录 这事儿挺震撼的。就在4月4日,全球最大的AI模型聚合平台OpenRouter在其官方账号上公布了一个爆炸性数字:阿里刚刚发布的千问新模型Qwen3 6-Plus,上线仅仅一天,日调用量

时间:2026-04-04 13:52
实战指南:基于快马平台深度开发,构建企业级workbuddy团队项目管理看板

实战指南:基于快马平台深度开发,构建企业级workbuddy团队项目管理看板

深度开发指南:利用快马平台高效构建企业级WorkBuddy团队项目管理看板 近期在开发团队协作工具WorkBuddy的项目管理模块时,传统开发模式的周期漫长令人困扰。转而采用快马平台(即InsCode)后,开发效率得到显著提升。本文将详细分享如何基于快马平台,快速搭建一个功能完善、体验流畅的企业级项

时间:2026-04-04 10:35
消息称 Meta 低调组建独立硬件团队,打造以多种形态陪伴人类的智能体

消息称 Meta 低调组建独立硬件团队,打造以多种形态陪伴人类的智能体

消息称 Meta 低调成立独立硬件部门,致力于研发多形态人类陪伴型智能体设备 4月4日凌晨,《商业内幕》发布独家报道引发行业关注。多位知情人士透露,Meta公司正悄然为其“超级智能”业务线组建一支独立的硬件研发团队,并任命资深硬件工程师负责整体管理。此举被视为Meta在人工智能设备战略布局上的关键一

时间:2026-04-04 08:55
AI 的记忆不是硬盘——从 40 个真实 Bug 说起

AI 的记忆不是硬盘——从 40 个真实 Bug 说起

这是 AI 认知架构实战笔记 系列的第 2 篇 上一篇我们聊了「给 AI 写灵魂文件」这件事,这一篇,我们来看看,当这份灵魂文件真正运转起来之后,现实究竟会给我们带来多少“惊喜”——或者更准确地说,是漏洞。项目名为 WorkBuddy-Configure,已部署在 gitee 和 gitcode 上

时间:2026-04-03 17:56
OpenClaw给每个Agent单独指定workspace

OpenClaw给每个Agent单独指定workspace

OpenClaw中为每个Agent配置独立工作区的最佳实践 在大模型智能体协作平台上,实现多个Agent之间的文件隔离是确保项目管理井然有序的关键需求。如果您正在使用OpenClaw平台,为不同角色的智能体分配专属工作空间可以有效避免文件冲突、权限混乱等问题。本指南将详细介绍在OpenClaw中为每

时间:2026-04-03 17:15
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程