阿里新语音模型:可定制角色与背景音乐的freestyle创作
3月2日最新消息,阿里巴巴今日正式发布了两款语音新模型:基于参考音频的声音克隆模型Fun-CosyVoice3.5,以及无需参考音频的音色设计模型Fun-AudioGen-VD。

据介绍,这两款模型均引入了强大的“指令遵循”能力,让用户可以自由控制声音的情感表达、语速快慢以及场景适配。
它们支持freestyle(自由风格模式)定制角色,适用于有声书制作、游戏配音、智能客服、播客内容、在线教育、直播互动等多个应用场景。
值得一提的是,这两款模型在同尺寸模型的基准测评中斩获了多项SOTA(最先进水平)成果。
在Seed-TTS基准测试的中文“困难案例”指标中,Fun-CosyVoice3.5表现尤为抢眼,其词错误率(Word Error Rate, WER)和说话人相似度(Speaker Similarity, SSIM)均达到最佳水平。
同时,由于优化了“困难案例”的发音表现,生僻字句错误率从原来的15.2%显著降低至5.3%。

其中,Fun-CosyVoice3.5支持freestyle指令控制,有效解决了传统克隆模型只能模仿、无法指定具体角色的痛点。
Fun-AudioGen-VD则专注于“从无到有”的音色设计。在指令遵循能力和可控性的Instruct-TTS基准测试中,其表现超越了gemini2.5-pro和gpt-4o-mini-tts。

该模型不仅能根据文字描述定制音色和情感,还能同步模拟复杂的听觉环境,实现“人物+场景”的一体化生成效果。
在强化学习训练过程中,两款模型通过采用DiffRO和GRPO技术,增加了时长和韵律多通道的奖励机制。
此外,Fun-CosyVoice3.5所使用的tokenizer帧率减半,不仅提高了训练效率,其首包延迟也降低了35%,大幅提升了实时交互体验。
即日起,用户可在阿里云百炼平台直接调用这两款最新模型。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
小米集团辟谣官微上线,定位官方辟谣平台
小米辟谣官微6月30日正式上线,作为集团官方辟谣阵地,用户可查询辟谣声明、反馈谣言线索。账号将主动澄清网络谣言,维护合法商誉,并致力于打造权威辟谣通道,保障公众知情权与合法权益。
小米官方辟谣账号上线持续维护合法商誉
6月30日,小米集团的一则动态引发热议:小米辟谣官方账号,正式上线了。简单来说,小米这次将澄清谣言的工作直接推到了前台——在中央网信办违法和不良信息举报中心的指导下,小米辟谣的全新阵地宣告成立。 目前,这个辟谣账号已在微博开通。用户可以通过它核实与查阅小米官方的辟谣声明,也可以反馈任何涉及小米的谣言
特斯拉Cybercab无驾舱量产车在奥斯汀启动L4级公开道路测试
特斯拉Cybercab量产车在奥斯汀启动L4级公开测试,彻底取消方向盘等物理控制装置。安全监督员仅观察不干预。车辆专为Robotaxi设计,搭载HW4 0与FSDV14 3 3系统,续航672公里,支持无线充电,实现全程独立驾驶。
鸿蒙智行回应问界M5车内异味系第三方配件所致
6月30日,针对近期网络热议的“问界M5车内异味”事件,鸿蒙智行官方小助手在社区帖子下方发布了正式回应。官方表示,已对刘先生的这辆车进行了全面检测排查。工作人员上门核查后发现,涉事车辆内部加装了大量第三方配件,包括非原厂皮质、塑胶收纳摆件、脚托、抱枕、车衣等。在拆除所有加装配件后,工作人员严格依照国
闫闯直言20万买电车选400V太愚蠢
2026年6月30日,微博上一则关于电动汽车高压平台技术路线的争论迅速引爆热搜。坐拥超过475万粉丝的汽车领域博主闫闯,在归还体验了4天的理想i6时,专门花费6分多钟把电量充至满格,并掷地有声地留下一句:“一点不比加油慢。”随后他补充道:“还是那句话,都这时代了,20万+电车还买400V的绝对愚蠢。
- 日榜
- 周榜
- 月榜
相关攻略
2026-07-02 11:22
2026-07-02 11:22
2026-07-02 11:22
2026-07-02 11:22
2026-07-02 11:22
2026-07-02 11:21
2026-07-02 11:21
2026-07-02 11:21
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

