当前位置: 首页
业界动态
阿里新语音模型:可定制角色与背景音乐的freestyle创作

阿里新语音模型:可定制角色与背景音乐的freestyle创作

热心网友 时间:2026-03-03
转载

3月2日最新消息,阿里巴巴今日正式发布了两款语音新模型:基于参考音频的声音克隆模型Fun-CosyVoice3.5,以及无需参考音频的音色设计模型Fun-AudioGen-VD。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

语音模型也能freestyle!阿里新模型可定制角色、模拟背景音

据介绍,这两款模型均引入了强大的“指令遵循”能力,让用户可以自由控制声音的情感表达、语速快慢以及场景适配。

它们支持freestyle(自由风格模式)定制角色,适用于有声书制作、游戏配音、智能客服、播客内容、在线教育、直播互动等多个应用场景。

值得一提的是,这两款模型在同尺寸模型的基准测评中斩获了多项SOTA(最先进水平)成果。

在Seed-TTS基准测试的中文“困难案例”指标中,Fun-CosyVoice3.5表现尤为抢眼,其词错误率(Word Error Rate, WER)和说话人相似度(Speaker Similarity, SSIM)均达到最佳水平。

同时,由于优化了“困难案例”的发音表现,生僻字句错误率从原来的15.2%显著降低至5.3%。

语音模型也能freestyle!阿里新模型可定制角色、模拟背景音

其中,Fun-CosyVoice3.5支持freestyle指令控制,有效解决了传统克隆模型只能模仿、无法指定具体角色的痛点。

Fun-AudioGen-VD则专注于“从无到有”的音色设计。在指令遵循能力和可控性的Instruct-TTS基准测试中,其表现超越了gemini2.5-pro和gpt-4o-mini-tts。

语音模型也能freestyle!阿里新模型可定制角色、模拟背景音

该模型不仅能根据文字描述定制音色和情感,还能同步模拟复杂的听觉环境,实现“人物+场景”的一体化生成效果。

在强化学习训练过程中,两款模型通过采用DiffRO和GRPO技术,增加了时长和韵律多通道的奖励机制。

此外,Fun-CosyVoice3.5所使用的tokenizer帧率减半,不仅提高了训练效率,其首包延迟也降低了35%,大幅提升了实时交互体验。

即日起,用户可在阿里云百炼平台直接调用这两款最新模型。

来源:https://m.mydrivers.com/newsview/1106459.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
HappyHorse AI视频生成模型盲测夺冠深度解析

HappyHorse AI视频生成模型盲测夺冠深度解析

最近AI视频圈被一个神秘模型刷屏了。它空降权威评测榜榜首,以断层优势领先所有已知对手,却至今保持匿名——这就是HappyHorse。它究竟什么来头?凭什么能一鸣惊人?我们不妨从数据和架构入手,拆解这匹2026年现象级黑马的真实实力。 HappyHorse是什么 简单说,HappyHorse是突然出现

时间:2026-05-12 20:44
配音演员集体抵制AI侵权张珈铭称单日仿声超700例

配音演员集体抵制AI侵权张珈铭称单日仿声超700例

近日,配音行业掀起了一股声势浩大的维权浪潮。据多家媒体报道,包括季冠霖、张珈铭在内的多位知名配音演员接连发声,公开谴责AI声音克隆与声音盗用等侵权行为,并强烈呼吁行业与平台方加强监管,完善治理机制。相关话题迅速冲上热搜,引发了社会各界的广泛讨论与关注。 在《哪吒之魔童降世》系列中为“太乙真人”配音的

时间:2026-05-12 20:44
谷歌AI搜索概览错误率引担忧 海量数据下准确率仅九成

谷歌AI搜索概览错误率引担忧 海量数据下准确率仅九成

《纽约时报》近期的一篇深度报道,将谷歌搜索的AI概览功能推向了舆论的风口浪尖。数据显示,该功能的整体准确率约为90%。这个数字看似优秀,但结合谷歌每年处理超过5万亿次搜索的庞大体量来计算,潜在风险便暴露无遗——这意味着,AI概览功能每小时可能生成超过5700万条错误答案,平均每分钟流向用户的错误信息

时间:2026-05-12 20:42
微软Bing开源Harrier多语言嵌入模型 支持超百种语言

微软Bing开源Harrier多语言嵌入模型 支持超百种语言

2026年4月,微软Bing团队正式开源了其新一代多语言文本嵌入模型——Harrier。该模型基于超过20亿条高质量真实语料进行训练,并创新性地引入GPT-5生成的合成数据以增强低资源语言的语义理解能力。Harrier具备高达32000词元的超长上下文处理窗口,其核心的27亿参数版本在权威的MTEB

时间:2026-05-12 20:41
中国发布全球首个碳核算大模型磐石禹衡精准刻画碳足迹

中国发布全球首个碳核算大模型磐石禹衡精准刻画碳足迹

全球首个全景式碳排放核算系统——“磐石·禹衡碳核算大模型”在上海正式发布。这项由中国科学院上海高等研究院主导研发的重大成果,标志着我国在碳排放核算技术领域,正从技术“跟跑”迈向“范式重构”的新阶段。 核心突破:数据、算法、算力三位一体 传统碳核算方法长期面临专业壁垒高、数据时效性差、空间分辨率低等挑

时间:2026-05-12 20:41
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程