阿里通义百灵上新语音模型:3秒录音即可克隆9种语言及18种方言
12月15日,通义大模型官方放出最新消息,宣布两款“百聆”语音模型正式开源,并迎来重磅升级。据介绍,只需录制3秒你的声音,就能让它无缝切换至不同语种、方言乃至情绪——无论是普通话、粤语、日语、英语的日常表达,还是开心、愤怒等情绪语调,它都能轻松驾驭,覆盖9种通用语言与18种方言。
此次升级中,Fun-CosyVoice3模型实现了多方面能力提升:首包延迟降低了一半,中英文混合语音的识别准确率翻倍,并支持9种语言、18种方言口音、跨语种克隆及情感控制;Fun-ASR模型能力同样增强:在嘈杂环境下的识别准确率达到93%,新增歌词与演唱识别功能,可自由混说31种语言、覆盖多种方言口音,同时将其流式识别模型的首字延迟降至160毫秒。开源版本方面,Fun-CosyVoice3(0.5B)提供零样本音色克隆能力,支持本地部署与二次开发;Fun-ASR-Nano(0.8B)作为轻量化版本,推理成本更低,模型完全开源,支持本地部署与定制化微调。
根据我们获得的最新进展,本次Fun-CosyVoice3大模型完成了多项关键升级:
首包延迟降低50%,支持双向流式合成,真正实现“输入即发声”,适用于语音助手、直播配音、无障碍阅读等实时交互场景;中英文混合语音的词错误率相比之前大幅下降56.4%,无论是包含专业术语、大小写混排的文本,还是需要进行语码转换的句子,都能精准且自然地发音;在零样本语音合成评测中,内容一致性与音色相似度全面提升,复杂测试场景下的字符错误率相对降低26%,接近真人录音水平;支持9种通用语言、18种中文方言、9种情感控制,并具备跨语种音色复制能力——仅用一段普通话录音,即可生成粤语、日语、英语等其他语言的语音,且音色保持高度一致。
而此次开源的Fun-CosyVoice3-0.5B模型提供了零样本音色克隆功能,你只需提供一段3秒以上的参考音频,即可复刻其音色并合成新的语音,同时支持本地部署和二次开发。
Fun-ASR让AI真正“听得懂”。其基于数千小时真实语音数据训练,已在钉钉“AI听记”、视频会议等场景中大规模落地。最新版本重点优化了嘈杂环境鲁棒性、多语言自由混说、中文方言与口音覆盖、歌词识别、定制化能力,并将流式识别模型的首字延迟降低到160毫秒。

Fun-CosyVoice3-0.5B开源地址:
https://github.com/FunAudioLLM/CosyVoice(GitHub)https://funaudiollm.github.io/cosyvoice3/(GitHub.io)https://www.modelscope.cn/studios/FunAudioLLM/Fun-CosyVoice3-0.5B(体验 demo)https://modelscope.cn/models/FunAudioLLM/Fun-CosyVoice3-0.5B-2512(国内模型仓库)https://huggingface.co/FunAudioLLM/Fun-CosyVoice3-0.5B-2512(海外模型仓库)
Fun-ASR-Nano-0.8B开源地址:
https://github.com/FunAudioLLM/Fun-ASR(GitHub)https://funaudiollm.github.io/funasr/(GitHub.io)https://modelscope.cn/studios/FunAudioLLM/Fun-ASR-Nano/(国内体验 demo)https://huggingface.co/spaces/FunAudioLLM/Fun-ASR-Nano(海外体验 demo)https://modelscope.cn/models/FunAudioLLM/fun-asr-nano-2512(国内模型仓库)https://huggingface.co/FunAudioLLM/Fun-ASR-Nano-2512(海外模型仓库)
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
BOE全球首发原生千帧FHD护眼电竞显示器实力解析
BOE全球首发原生千帧FHD护眼电竞显示器,基于ADSPro与Oxide技术实现物理层面1000Hz原生驱动,画面完整无拖尾。产品兼顾护眼、广视角与高色域,并联合冠捷、AMD等伙伴构建全链路生态,推动电竞显示从参数竞争转向技术驱动与体验升级。
苹果自研5G基带芯片将全面搭载于iPhone 18系列
苹果计划为iPhone18全系配备自研5G基带芯片,以结束对高通的长期依赖。同时,iOS新测试版引入“限制高精度位置上报”功能,可大幅降低向运营商上报的位置精度,加强隐私保护。该功能目前仅限部分已搭载自研基带的设备使用,预计未来将随新基带普及至更多机型。新一代C2基带还将补齐5G毫米波支持短板。
盈通显卡自带香味引热议 外国网友装机体验惊喜
一位海外网友组装白色主题主机时,发现使用的盈通樱瞳9070XT显卡散发出淡雅香气。通电约十分钟后,香味被女友察觉,排查后确认源自显卡。此事在Reddit引发热议,网友调侃显卡支持多种香型,并戏称未来可能出现香氛内存条。
付巧妹团队首次从古DNA中提取中国直立人遗传序列
付巧妹团队首次从约40万年前直立人牙齿化石中提取古蛋白序列,揭示东亚直立人属于遗传关系紧密的独立群体,其部分遗传成分可能通过丹尼索瓦人间接流入现代人基因库。研究同步开发了基于蛋白质的化石性别判定新方法,推动了古蛋白组学成为人类演化研究的核心技术。
小米SU7纽北赛道刷新SUV圈速记录,车手致谢雷军并承诺持续精进
小米高性能车型YU7GT在纽博格林北环赛道以7分34秒931的圈速刷新最速SUV纪录。这是中国车手驾驶中国品牌首次获得纽北官方认证的圈速成绩,展现了车辆在底盘、电驱及轻量化方面的技术实力。车手任周灿表示将继续通过极限测试打磨产品,此次突破为中国汽车品牌在全球高性能市场注入信心。
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

