当前位置: 首页
AI
豆包语音识别2.0上线:升级多语种图像识别,听懂13国外语更看懂图

豆包语音识别2.0上线:升级多语种图像识别,听懂13国外语更看懂图

热心网友 时间:2025-12-06
转载

12月5日,火山引擎宣布推出升级版豆包语音识别模型2.0,该版本在识别能力和多语言支持方面均实现显著突破。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

豆包语音识别模型 2.0 上线:不仅“听懂字”还能“看懂图”,支持日韩德法等 13 种外语

新版模型在推理能力上得到全面提升,能够通过深度理解上下文语境实现精确识别,整体关键词召回率较之前提升了20%;此外,模型还支持多模态视觉理解,不仅能够“听懂”语音内容,还能结合视觉信息“看懂”图片内容,通过对单张或多张图像的分析,进一步提升文字识别的精准度;同时,模型还新增了对日语、韩语、德语、法语等13种海外语言的高精度识别能力。

豆包语音识别模型 2.0 上线:不仅“听懂字”还能“看懂图”,支持日韩德法等 13 种外语

豆包语音识别模型基于火山引擎自研的Seed混合专家大语言模型架构构建而成,在延续1.0版本20亿参数音频编码器架构的基础上,重点针对专有名词、人名、地名、品牌名称及易混淆多音字等复杂场景进行了专项优化与升级。其更强大的上下文推理能力,使模型能够有效理解和融合多模态信息,并具备混合语言的精准识别能力。

升级后的豆包语音识别模型2.0采用了强化学习领域的PPO优化方案进行训练,无需依赖目标词汇的历史出现记录,通过深入理解更加泛化的上下文关系即可完成识别任务,这让语音识别功能更适应动态变化的真实交互场景,输出结果也更加准确可靠。

以历史人物生平讨论为例,当用户提及“筠州”(注:该地名读音为yún zhōu)这一生僻地名时,如果缺乏上下文推理能力的传统模型,很可能会将其误识别为同音的“云州”或“郓州”等地名。而豆包语音识别模型2.0可以依托“当前讨论苏轼、苏辙”这一背景信息,即使上下文中从未出现过“筠州”一词,也能通过逻辑推理锁定用户所指的特定地名,最终实现对多音字地名的精准识别。

豆包语音识别模型 2.0 上线:不仅“听懂字”还能“看懂图”,支持日韩德法等 13 种外语

豆包语音识别模型2.0将上下文理解范围从纯文本拓展至视觉层面,使语音识别功能突破了过去“只识文字”的局限性,实现了向“理解场景”的跨越式升级。模型通过智能分析单张或多张图片中的视觉信息,辅助用户在日常拍摄或图片创作等多样化应用场景中,精准识别容易混淆的字词,从而显著提升识别的准确性。

以日常搜拍场景为例,当用户发送一张滑板运动的照片后,若想描述画面中的特技动作“滑鸡”(注:该词在特定语境中代指滑板上的花式技巧),传统语音识别模型可能会因其不常见而误判为“滑梯”等常用词语。而豆包语音识别模型2.0能够同时解析图像内容,识别出画面中出现的“鸡”(可能为道具或装饰元素),进而准确判断用户想表达的正是“滑鸡”这一特定概念,有效避免了因字词混淆导致的识别偏差。

豆包语音识别模型 2.0 上线:不仅“听懂字”还能“看懂图”,支持日韩德法等 13 种外语

在图片创作与编辑场景中,越来越多的用户选择通过语音指令来生成或修改内容。豆包语音识别模型2.0能够智能结合当前图像内容进行辨析与纠错。当用户通过语音提及需要修改的元素时,模型可以精准判断其真实需求——比如明确用户想调整的是画面中的“码头”元素,而非同音但更常见的“码头”一词,最终生成的图片更贴合用户的预期效果。

豆包语音识别模型 2.0 上线:不仅“听懂字”还能“看懂图”,支持日韩德法等 13 种外语

豆包语音识别模型2.0通过创新的Function Call策略,在确保中英文及方言识别准确性的前提下,全面支持日语、韩语、德语、法语、印尼语、西班牙语、葡萄牙语等13类语种的精准识别。

豆包语音识别模型 2.0 上线:不仅“听懂字”还能“看懂图”,支持日韩德法等 13 种外语

目前,豆包语音识别模型2.0已在火山引擎方舟体验中心正式上线,并同步对外提供API调用服务。

来源:https://www.ithome.com/0/902/764.htm

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
硅谷巨头竞相投资!奶企AI项圈估值超20亿美元

硅谷巨头竞相投资!奶企AI项圈估值超20亿美元

新智元报道编辑:倾倾【新智元导读】这家新西兰的公司给奶牛戴上AI项圈,估值一年飙升20亿美元!Founders Fund领投,投资人抢到超额认购。它的秘密武器叫「Cowgorithm」——一套让牛自

时间:2026-03-29 18:49
马斯克AI创业搭子“全跑了”:真相与项目复盘

马斯克AI创业搭子“全跑了”:真相与项目复盘

智东西3月29日报道,今天,xAI联合创始人罗斯·诺丁在社交平台X上悄然移除了自己的xAI员工认证,离开了这家以马斯克为首的AI独角兽。至此,xAI最初的12名联合创始人中,仅剩马斯克一人。诺丁的x

时间:2026-03-29 16:49
行业首发:OpenClaw全网刷屏,ClawManager一键收编AI龙虾大军

行业首发:OpenClaw全网刷屏,ClawManager一键收编AI龙虾大军

新智元报道编辑:KingHZ【新智元导读】研究员三个月科研对话记录一夜清零,企业敏感数据公网裸奔……全行业首个企业级OpenClaw服务器部署管理方案ClawManager问世,让OpenClaw真

时间:2026-03-29 14:55
甲子光年:科技如何重塑空间设计行业新价值

甲子光年:科技如何重塑空间设计行业新价值

当“好看”成为基础门槛,头部设计公司开始把自己改造成一种新的组织:它既做创意,也做设计开源;既做项目,也做科技能力构建。矩阵纵横(Matrix Design)上海新总部的落成,正是这一产业价值锚点变

时间:2026-03-29 14:49
马斯克AI创业项目xAI:完整解析与未来展望

马斯克AI创业项目xAI:完整解析与未来展望

智东西作者 陈骏达编辑 李水青智东西3月29日报道,今天,xAI联合创始人罗斯·诺丁(Ross Nordeen)在社交平台X上悄然移除了自己的xAI员工认证,离开了这家以马斯克为首的AI独角兽。至此

时间:2026-03-29 12:49
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程