当前位置: 首页
科技数码
阿里端出最强语音模型,英文rap精准转文字,准确率干翻全球

阿里端出最强语音模型,英文rap精准转文字,准确率干翻全球

热心网友 时间:2025-09-09
转载

智东西9月9日报道,昨天,阿里发布最新语音识别模型Qwen3-ASR-Flash,该模型基于Qwen3基座模型训练,支持11种语言和多种口音。用户可以通过ModelScope、HuggingFace和阿里云百炼API Qwen3-ASR-Flash免费体验。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

在ASR(自动语音识别)的多项基准测试中,Qwen3-ASR-Flash在方言、多语种、关键信息识别、歌词等方面的识别错误率明显低于谷歌Gemini-2.5-Pro、OpenAI GPT-4o-Transcribe、阿里巴巴语音实验室Paraformer-v1、字节豆包Doubao-ASR。

具体来看,该模型基于海量多模态数据以及千万小时规模ASR数据构建,支持中文、英语、法语、德语等11个语种,识别过程中能自动分辨语音语种、自动过滤静音和背景噪声等非语音片段。

此外,用户还可定制ASR结果,通过在上传音频时添加关键信息术语、音频发生背景等上下文信息,就能使识别结果匹配这些已有信息。

下面是最新放出的电竞比赛解说音频示例。研究人员为这一场景配置了背景信息,包括关键词列表、这场游戏的背景等。因此识别结果中,即使电竞解说人员的语速非常快也没有影响识别游戏专业术语的效果。

ModelScope地址:https://modelscope.cn/studios/Qwen/Qwen3-ASR-Demo Hugging Face地址:https://huggingface.co/spaces/Qwen/Qwen3-ASR-Demo 阿里云百炼API调用地址:https://bailian.console.aliyun.com/?tab=doc#/doc/?type=model&url=2979031

01.能识别游戏解说、英文说唱,连续多种噪音抗干扰拉满

最新放出了5个演示示例,包含多种类型噪声、多语种快速切换、方言、专业名词的音频识别难题。

第一个是夹杂手机铃声、车铃声、音乐声、水声、雷声等多种类型的连续噪音,其中还会有不同人物之间切换对话,Qwen3-ASR-Flash在多人同时说话或者说话间隔非常短的情况下也对语音进行了准确识别,没有受到噪声干扰。

第二个是英文说唱。英文说唱的特点是语速快、歌词中单词连读情况多,识别结果中很多歌词中的单词连读、长难句识别准确,且没有受到背景音乐的干扰。

第三个是方言的识别。这一场景中,音频中主人公正在开车,有主人公的方言和智能语音客服的普通话穿插出现,音频中智能语音客服将“纠正”错误识别成了“96”,Qwen3-ASR-Flash进行了准确识别。

第四个是多语种句子切换,7秒的音频里有英语、日语等5种语言,识别结果都进行了一一呈现。

最后是化学课程的一段音频。识别结果中酯基、酸、醛、氨等化学名词,以及音频中人物的语气词识别并未出错。

02.歌词识别错误率低于8%,可定制语音识别结果

性能表现,Qwen3-ASR-Flash在中文、英文、多语言、歌词、关键信息上的识别错误率都要低于Gemini-2.5-Pro、GPT-4o-Transcribe、Paraformer-v1、Doubao-ASR。

在歌词识别中,Qwen3-ASR-Flash支持清唱和带背景音乐的整首歌识别,研究人员实测识别错误率低于8%。

该模型支持普通话以及四川话、闽南语、吴语、粤语等方言,英式、美式及多地区口音的英语,其他语言如法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语和阿拉伯语。

如果想要获得定制化的ASR结果,用户可提供任意格式的背景文本来获得倾向性ASR结果,且用户无需对上下文信息进行预处理。

其支持的格式包括但不限于以下几种:简单的关键词或热词列表、任意长度和来源的完整段落或整篇文档、以任意格式混合的关键词列表与全文段落、无关甚至无意义的文本。研究人员提到,模型对无关上下文的负面影响具有高度鲁棒性。

基于此,Qwen3-ASR-Flash可以利用该上下文识别并匹配命名实体和其他关键术语,输出定制化的识别结果。

03.结语:后续将迭代通用语音识别精度

一直以来,复杂声学环境、多样化语音特征、专业术语等都是语音识别的最大难点。此次为了保证用户对输出结果的可控,阿里研究人员增加了背景文本上传功能,使得识别结果能更加符合用户的预期。

下一步,研究人员将提升Qwen3-ASR-Flash的通用识别精度,进一步降低普通用户的使用门槛。

来源:https://36kr.com/p/3458910909699459

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
“下一代核心技术专利申请,中国首超日本”

“下一代核心技术专利申请,中国首超日本”

中国钙钛矿电池专利申请量首超日本,产业化进程领跑全球 在可再生能源领域,被视为下一代核心技术的钙钛矿太阳能电池,最近传来一个标志性消息。根据《日经亚洲》5日的报道,一项专项研究显示,中国在该领域的专利申请总量,首次超越了长期占据榜首的日本。 什么是钙钛矿太阳能电池?简单来说,它是一种利用特殊钙钛矿材

时间:2026-05-05 14:23
水滴公司股权曝光:沈鹏持股22%有72%投票权 腾讯是大股东

水滴公司股权曝光:沈鹏持股22%有72%投票权 腾讯是大股东

水滴公司2025年报解读:股权结构稳固,盈利曲线持续上扬 近日,水滴公司(NYSE: WDH)发布了2025年度报告,为我们揭开了这家健康保障科技平台最新的运营面貌与权力架构。一份年报,几组关键数据,背后是业务重心的变迁与财务健康的晴雨表。 先看最核心的股权与控制权。截至2026年3月31日,创始人

时间:2026-05-05 14:23
中国移动官宣将推AI-eSIM产品

中国移动官宣将推AI-eSIM产品

2026移动云大会前瞻:中国移动官宣AI-eSIM,为智能终端装上“大脑”与“身份证” 5月的苏州金鸡湖,即将迎来一场科技盛会。根据官方消息,2026移动云大会定于5月7日至9日在苏州金鸡湖国际会议中心举行。就在大会前夕,中国移动正式官宣了一项重磅产品——AI-eSIM,旨在为下一代智能设备带来变革

时间:2026-05-05 13:51
推动“人工智能+制造”走深走实

推动“人工智能+制造”走深走实

推动“人工智能+制造”走深走实 来源:人民日报海外版 制造业的智能化转型,最近又迎来了一剂强心针。工业和信息化部与国家数据局联合出手,正式启动了2026年的“模数共振”行动。这项行动瞄准了制造业的20个重点行业,计划在一批重点城市先行先试,目标很明确:要探索出一条能持续产出场景、模型、智能体、数据集

时间:2026-05-05 13:51
Anthropic:成立AI服务公司,面向中型企业落地Claude

Anthropic:成立AI服务公司,面向中型企业落地Claude

Anthropic联手顶级资本,成立AI服务公司专攻中型企业市场 一则重磅消息在科技圈传开。当地时间5月4日,AI领域的明星公司Anthropic正式宣布,将与黑石集团、赫尔曼与弗里德曼以及高盛共同成立一家全新的人工智能服务公司。 那么,这家新公司究竟要做什么?根据官方新闻稿,其核心目标非常明确:与

时间:2026-05-05 12:48
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程