阿里通义语音双模型上线:一句话即可生成高质量语音
3月2日,阿里通义实验室语音团队发布两款支持FreeStyle指令生成的模型Fun-CosyVoice3 5与Fun-AudioGen-VD。最新宣称,无论是精细控制声音表达,还是从零设计音色与场
3月2日,阿里通义实验室语音团队正式推出两款支持自由风格指令生成的模型——Fun-CosyVoice3.5与Fun-AudioGen-VD。
据介绍,这两款模型实现了对语音表达和音频场景的精准控制。用户仅需通过自然语言指令,即可直接生成所需的语音效果,无论是细腻的情绪表达,还是从零开始设计音色与场景,都能轻松实现。
其中,Fun-CosyVoice3.5专注于多语种复刻与精细化表达控制。用户可以直接用自然语言描述表达方式,例如“语气再坚定一些”“稍微压低音调,语速放慢一点”“带一点情绪起伏”……模型能准确理解并生成对应的语音表现。此外,针对生僻字、复杂语句等容易读错的场景,Fun-CosyVoice3.5进行了专项优化,将生僻字读错率从15.2%降至5.3%,

而Fun-AudioGen-VD则主打音色设计与场景化音频生成。它支持根据自然语言描述,生成目标音色、情绪表达和完整听觉场景。不仅如此,Fun-AudioGen-VD不仅能生成语音,还能生成语音所处的“世界”,为用户打造沉浸式的听觉体验。

你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:阿里通义语音双模型上线:一句话即可生成高质量语音要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点Daetama是面向数据科学面试和SQL能力提升的练习平台,已收录超100个覆盖基础到进阶的SQL题目,求职板块与课程模块在开发中,团队保持每周更新节奏,提供系统性刷题与模拟面试场景。
SpeakMulti是一款AI驱动的配音平台,可将YouTube视频翻译成多种语言,保留原始说话者的音色和语调,降低本地化成本。用户提交视频并选择目标语言后,AI自动完成配音,并由专家团队审核,确保准确自然。
需求人群 如果你经常需要从图片中提取文字——例如整理截图内容、翻译图片里的外语文本、识别带有水印的图片信息——那么 Umi-OCR 无疑是一款相当实用的工具。它完全在本地运行,无需联网,对隐私保护极为友好。 产品特色 这款工具的核心亮点都集中在实用性上。截屏识别操作非常顺手,按下快捷键即可框选区域,
艺术创作与人工智能的融合,正在开启一个全新的创作时代。moonlightai 正是这样一款AI绘画工具,能够帮助用户通过人工智能快速生成不同风格的绘画作品——无论你想复刻文艺复兴时期的古典优雅,还是为画作注入梵高般炽热的笔触,甚至从艾沃佐夫斯基的海浪星空中汲取灵感,它都能轻松实现。 需求人群 简单来
- 日榜
- 周榜
- 月榜
热点快看
