首页
科技
阿里端出最强语音模型,英文rap精准转文字,准确率干翻全球

阿里端出最强语音模型,英文rap精准转文字,准确率干翻全球

热心网友
137
转载
2025-09-09
来源:https://36kr.com/p/3458910909699459

智东西9月9日报道,昨天,阿里发布最新语音识别模型Qwen3-ASR-Flash,该模型基于Qwen3基座模型训练,支持11种语言和多种口音。用户可以通过ModelScope、HuggingFace和阿里云百炼API Qwen3-ASR-Flash免费体验。

在ASR(自动语音识别)的多项基准测试中,Qwen3-ASR-Flash在方言、多语种、关键信息识别、歌词等方面的识别错误率明显低于谷歌Gemini-2.5-Pro、OpenAI GPT-4o-Transcribe、阿里巴巴语音实验室Paraformer-v1、字节豆包Doubao-ASR。

具体来看,该模型基于海量多模态数据以及千万小时规模ASR数据构建,支持中文、英语、法语、德语等11个语种,识别过程中能自动分辨语音语种、自动过滤静音和背景噪声等非语音片段。

此外,用户还可定制ASR结果,通过在上传音频时添加关键信息术语、音频发生背景等上下文信息,就能使识别结果匹配这些已有信息。

下面是最新放出的电竞比赛解说音频示例。研究人员为这一场景配置了背景信息,包括关键词列表、这场游戏的背景等。因此识别结果中,即使电竞解说人员的语速非常快也没有影响识别游戏专业术语的效果。

ModelScope地址:https://modelscope.cn/studios/Qwen/Qwen3-ASR-Demo Hugging Face地址:https://huggingface.co/spaces/Qwen/Qwen3-ASR-Demo 阿里云百炼API调用地址:https://bailian.console.aliyun.com/?tab=doc#/doc/?type=model&url=2979031

01.能识别游戏解说、英文说唱,连续多种噪音抗干扰拉满

最新放出了5个演示示例,包含多种类型噪声、多语种快速切换、方言、专业名词的音频识别难题。

第一个是夹杂手机铃声、车铃声、音乐声、水声、雷声等多种类型的连续噪音,其中还会有不同人物之间切换对话,Qwen3-ASR-Flash在多人同时说话或者说话间隔非常短的情况下也对语音进行了准确识别,没有受到噪声干扰。

第二个是英文说唱。英文说唱的特点是语速快、歌词中单词连读情况多,识别结果中很多歌词中的单词连读、长难句识别准确,且没有受到背景音乐的干扰。

第三个是方言的识别。这一场景中,音频中主人公正在开车,有主人公的方言和智能语音客服的普通话穿插出现,音频中智能语音客服将“纠正”错误识别成了“96”,Qwen3-ASR-Flash进行了准确识别。

第四个是多语种句子切换,7秒的音频里有英语、日语等5种语言,识别结果都进行了一一呈现。

最后是化学课程的一段音频。识别结果中酯基、酸、醛、氨等化学名词,以及音频中人物的语气词识别并未出错。

02.歌词识别错误率低于8%,可定制语音识别结果

性能表现,Qwen3-ASR-Flash在中文、英文、多语言、歌词、关键信息上的识别错误率都要低于Gemini-2.5-Pro、GPT-4o-Transcribe、Paraformer-v1、Doubao-ASR。

在歌词识别中,Qwen3-ASR-Flash支持清唱和带背景音乐的整首歌识别,研究人员实测识别错误率低于8%。

该模型支持普通话以及四川话、闽南语、吴语、粤语等方言,英式、美式及多地区口音的英语,其他语言如法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语和阿拉伯语。

如果想要获得定制化的ASR结果,用户可提供任意格式的背景文本来获得倾向性ASR结果,且用户无需对上下文信息进行预处理。

其支持的格式包括但不限于以下几种:简单的关键词或热词列表、任意长度和来源的完整段落或整篇文档、以任意格式混合的关键词列表与全文段落、无关甚至无意义的文本。研究人员提到,模型对无关上下文的负面影响具有高度鲁棒性。

基于此,Qwen3-ASR-Flash可以利用该上下文识别并匹配命名实体和其他关键术语,输出定制化的识别结果。

03.结语:后续将迭代通用语音识别精度

一直以来,复杂声学环境、多样化语音特征、专业术语等都是语音识别的最大难点。此次为了保证用户对输出结果的可控,阿里研究人员增加了背景文本上传功能,使得识别结果能更加符合用户的预期。

下一步,研究人员将提升Qwen3-ASR-Flash的通用识别精度,进一步降低普通用户的使用门槛。

免责声明

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

最新文章

黑芝麻智能再度登陆IAA MOBILITY 全面展示智能出行“芯”实力

9月9日,2025德国国际汽车及智慧出行博览会(IAA Mobility 2025)在慕尼黑正式开幕。智能汽车计算芯片引领者黑芝麻智能再度登上这一“预演”未来出行面貌的国际舞台(展位号:B2馆A14

2025-09-09.
3310

从能用到好用:联想开天X7打开专业场景信创替代新格局

“推进高水平科技自立自强”,2025年《政府工作报告》为我国科技发展定下了重要基调,自主可控、安全可靠是科技创新升级的核心。根据报道,中国信创产业规模2025年将达27961亿元。同时,信创也正向着

2025-09-09.
2307

美团闪购近7000家Apple授权专营店将同步首发开售iPhone新品

业界普遍预计,iPhone 17系列,及Apple Watch、AirPods等新品即将在北京时间9月10日凌晨的Apple发布会上亮相。记者获悉,今年Apple各类新品将继续在美团闪购同步预售、首

2025-09-09.
2973

672个AI“选手“集结,中国生成式AI备案登记图鉴,教育AI竟成“卷王“

得益于AI技术的成熟和开源大模型的发展,中国生成式AI应用及服务正迎来爆发式增长。 根据国家网信办公示的生成式AI服务备案信息: 截至2025年6月,共439款生成式人工智能服务在国家网信办完成

2025-09-09.
8474

威马“复活”大量招人,“宝能系”接过威马“方向盘”

倒下的威马即将“复活”,继续未完成的IPO梦想? 停更两年多,威马汽车最新微信公众号在9月6日发布的《致供应商白皮书》不仅透露出深圳翔飞汽车销售有限公司(以下简称“翔飞汽车”)成为新股东,威马复工

2025-09-09.
4409

热门教程

更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程

最新下载

更多
我要当元帅
我要当元帅 休闲益智 2025-09-09更新
查看
西蒙的猫跑酷手游
西蒙的猫跑酷手游 休闲益智 2025-09-09更新
查看
房屋设计师
房屋设计师 休闲益智 2025-09-09更新
查看
卡通飞机游戏
卡通飞机游戏 休闲益智 2025-09-09更新
查看
模拟农场14
模拟农场14 休闲益智 2025-09-09更新
查看
pool break lite
pool break lite 体育竞技 2025-09-09更新
查看
蹦蹦也疯狂
蹦蹦也疯狂 休闲益智 2025-09-09更新
查看
美味星球2正
美味星球2正 休闲益智 2025-09-09更新
查看
牧场割草模拟器
牧场割草模拟器 休闲益智 2025-09-09更新
查看
解压饮料模拟器
解压饮料模拟器 休闲益智 2025-09-09更新
查看