当前位置: 首页
业界动态
Fun-ASR1.5 – 阿里通义推出的端到端语音识别模型

Fun-ASR1.5 – 阿里通义推出的端到端语音识别模型

热心网友 时间:2026-04-22
转载

Fun-ASR1.5是什么

在语音识别领域,一个模型通吃所有场景的梦想,似乎正被阿里通义团队变为现实。他们推出的Fun-ASR1.5,正是这个梦想的最新实践。这个端到端语音识别大模型,一口气将30种语言的识别能力塞进了一个模型里,更难得的是,它深入覆盖了中文的七大方言体系及二十余种地方口音,甚至对古诗词诵读做了专项优化。其核心在于,它基于MoE架构实现了自动语种切换,用户无需预设任何标签。再加上智能标点预测与文本归一化等后处理能力,Fun-ASR1.5的目标很明确:让语音转写从“能用”彻底走向“好用”。

Fun-ASR1.5 – 阿里通义推出的端到端语音识别模型

Fun-ASR1.5的主要功能

  • 多语言识别:一个模型,覆盖中、英、日、韩、法、德、西、葡、俄、阿拉伯语等30种语言,堪称语言识别界的“联合国”。
  • 自动语种切换:这才是亮点——无需预设语种标签,模型能自动识别并切换Code-Switching场景下的多语言混合语音,对话中英夹杂?完全没问题。
  • 方言识别:覆盖七大方言体系及二十余种地方口音,并对上海话、粤语、四川话等15种高需求方言进行了重点优化。
  • 古诗词识别:构建了从先秦到近代的古诗词语音-文本对齐语料库,专门支持文言诵读的精准转写,让科技为文化传承赋能。
  • 智能标点预测:基于上下文语义,自动插入逗号、句号、问号等标点符号,转写结果不再是一团“字糊”。
  • 文本归一化:自动将口语中凌乱的数字、日期、金额、电话等信息,转换为清晰规范的书面格式,省去大量后期整理工作。

Fun-ASR1.5的技术原理

  • MoE架构:采用混合专家架构。简单来说,就像拥有一支多语种专家团队,听到特定语言时,只激活相关“专家”进行处理,极大提升了多语言处理的灵活性与效率。
  • 分级分阶段训练:在训练阶段,分级、分阶段地使用精准数据,这种策略显著提升了模型应对真实世界复杂语音场景的能力。
  • 方言数据驱动:基于数十万小时的真实方言语音数据训练,成果显著——平均字错误率(CER)相比上一版本直降56.2%。
  • 古诗词语料库:为了攻克古诗词难关,团队构建了涵盖《诗经》《楚辞》、李白杜甫诗集、苏轼辛弃疾词作等经典文本的真人诵读录音语料库,为高精度识别打下了坚实基础。

如何使用Fun-ASR1.5

  • 阿里云百炼平台:最直接的途径是访问阿里云百炼官网,进入模型体验中心的语音板块,即可调用相关API进行集成开发。
  • 魔搭社区:如果想先快速体验一把,可以访问 https://modelscope.cn/studios/iic/FunAudio-ASR ,直接在线试用模型效果。

Fun-ASR1.5的关键信息和使用要求

  • 产品定位:端到端语音识别大模型。
  • 支持语言:30种语言,覆盖欧洲、东亚、东南亚、南亚及中东的主流语种。
  • 方言覆盖:七大方言体系,其中上海话、粤语、四川话等15种高需求方言是优化重点。
  • 古诗词准确率:在内部评测集上,字符级准确率达到了97%。
  • 使用方式:主要通过API调用,或前往魔搭社区在线体验。
  • 无需预设:在多语言混合场景下,用户无需提前指定语种标签,模型会自动搞定。

Fun-ASR1.5的核心优势

  • 单模型多语言:一个模型无缝切换30种语言,这直接减少了企业部署与维护多个模型带来的成本和复杂度。
  • 方言识别领先:基于海量方言数据训练,CER较上版大幅下降56.2%,能原汁原味地还原方言文字,贴近真实需求。
  • 自动Code-Switching:无需任何预设,即可流畅处理同一段对话中的多语言混合场景,这对国际化团队沟通至关重要。
  • 文化场景专项优化:针对古诗词诵读的专项训练,使其字符准确率达97%,不仅是技术展示,更是对文化传承的实际助力。
  • 后处理智能化:自动标点与文本归一化功能,能大幅降低会议纪要、法律笔录、媒体采访等场景的后期人工编辑成本,提升效率。

Fun-ASR1.5的同类竞品对比

维度 Fun-ASR1.5 Seed-ASR Tencent-ASR
语言覆盖 30种语言,单模型覆盖 多语言支持 多语言支持
方言支持 七大方言体系,15种重点优化,CER降56.2% 基础支持 基础支持
Code-Switching 无需预设标签,自动识别切换 支持 支持
古诗词识别 专项优化,97%字符准确率 未明确 未明确
智能后处理 自动标点+文本归一化(数字/日期/金额/电话) 基础标点能力 基础标点能力
架构特点 MoE混合专家架构 未公开 未公开
开放体验 阿里云百炼API + 魔搭社区 火山引擎 腾讯云

Fun-ASR1.5的应用场景

  • 跨国会议:在跨国会议中,它能实时精准转写多语言混合的对话内容。参会者既无需提前预设语种,也免去了在多个翻译工具间来回切换的麻烦,沟通效率直线上升。
  • 智能音箱:在智能家居与车载场景中,Fun-ASR1.5能精准识别各类方言指令,让智能设备真正“听得懂乡音”,打破语音交互的普及壁垒。
  • 在线教育:对于国学在线教育,它支持古诗词诵读的精准转写,以97%的字符级准确率,为传统文化的数字化学习和传承提供了可靠的技术工具。
  • 新闻采访:在新闻采访与内容生产领域,其自动添加标点、并将口语化数字日期归一化的能力,能大幅减少记者和编辑的后期整理时间,加速内容产出流程。
来源:https://ai-bot.cn/fun-asr1-5/

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
Anthropic官宣修复后仍存隐患 Claude Code遭新型逃逸攻击

Anthropic官宣修复后仍存隐患 Claude Code遭新型逃逸攻击

Anthropic源代码泄露:Claude Code新型prompt逃逸漏洞浮出水面 前阵子安全圈里传出了新动静。Anthropic的部分源代码意外泄露,研究者们顺藤摸瓜,竟发现了一条针对其代码大模型Claude Code的新型prompt逃逸攻击路径。简单来说,攻击者能借此绕过模型内置的内容审查机

时间:2026-04-22 18:39
前Facebook团队创立Moonbounce 获1200万美元布局AI内容审核

前Facebook团队创立Moonbounce 获1200万美元布局AI内容审核

前Facebook团队创立的AI治理公司Moonbounce获1200万美元融资 内容审核领域近日迎来一则重要融资消息。由Facebook(现Meta)前核心内容安全团队成员创立的AI治理服务商Moonbounce,刚刚完成了1200万美元的融资。这家公司的核心产品是一个叫“AI控制引擎”的平台,它

时间:2026-04-22 18:38
千问App上线万相2.7视频模型 几句话实现视频全流程创作

千问App上线万相2.7视频模型 几句话实现视频全流程创作

2026年4月3日:千问App万相2 7模型正式上线 2026年4月3日,千问App正式上线了“万相2 7”(Wan2 7)视频生成大模型。这次更新可不是小打小闹,直接带来了视频编辑、视频续写、动作模仿三大核心功能。用户现在只需动动嘴皮子,用自然语言下指令,就能完成角色替换、风格切换、镜头调整这些过

时间:2026-04-22 18:38
保险行业AI应用乱象频出 算法决策公正性引发广泛争议

保险行业AI应用乱象频出 算法决策公正性引发广泛争议

保险AI的“隐形黑手”:当算法成为拒赔利器 最近一份来自美国科技媒体Digital Trends的行业调查,揭示了一个趋势:全球超过六成的大中型保险公司,已经把AI系统用到了核保风控、理赔核查这类核心业务上。效率提升的另一面,是随之而来的公正性质疑。美国消费者权益组织2024年的调研数据就点明了问题

时间:2026-04-22 18:38
阿里通义发布Wan2.7-Video大模型 一句话即可实现视频全维度编辑

阿里通义发布Wan2.7-Video大模型 一句话即可实现视频全维度编辑

阿里通义实验室发布Wan2 7-Video:视频编辑从此“张口就来” 2026年4月3日,对视频内容创作者而言,这或许是个值得记录的日子。阿里通义实验室在这一天正式推出了视频创作大模型——Wan2 7-Video。这个模型的出现,将“全模态输入”这件事变得触手可及:文本、图像、视频、音频,你手里的任

时间:2026-04-22 18:38
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程