当前位置: 首页
科技数码
阿里重磅开源三款工具,斩获32项技术领先指标

阿里重磅开源三款工具,斩获32项技术领先指标

热心网友 时间:2025-09-23
转载

智东西9月23日消息-阿里通义大模型团队昨夜迎来重磅更新,三款创新产品同步亮相:开源原生全模态大模型Qwen3-Omni、语音合成模型Qwen3-TTS以及升级版图像编辑模型Qwen-Image-Edit-2509。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

Qwen3-Omni具备出色的多模态处理能力,可同时解析文本、图像、音频及视频内容,并支持实时流式输出文本和自然语音。该模型在36项音视频基准测试中表现抢眼,32项位列开源榜首,22项刷新行业纪录,整体性能超越Gemini-2.5-Pro、Seed-ASR及GPT-4o-Transcribe等商业闭源模型,同时在图像和文本处理方面也达到同规模模型的顶尖水准。

Qwen3-TTS提供17种拟真音色与10种语言支持,在语音流畅度和音色还原度上超越SeedTTS、GPT-4o-Audio-Preview等主流产品。

Qwen-Image-Edit-2509最显著的功能迭代是多图像编辑能力,可实现"人物+人物"、"人物+物体"等元素的跨图融合。

阿里开源主页

01. 119种语言交互与人设定制

在国际版通义千问应用中,用户可通过输入框右下角按钮启用视频通话功能(Beta测试阶段)。实际测试显示网页端体验尚需优化,而移动App端的Qwen-Omni-Flash模型已能实现接近真人对话的低延迟响应。

该模型表现出优异的世界知识储备,在啤酒品牌识别、植物鉴别等测试中均给出准确答案。官方数据显示,Qwen3-Omni支持119种文本语言交互、19种语音理解语言与10种语音生成语言,音频对话延迟低至211ms,视频对话507ms,还支持30分钟长音频解析。不过在语音输出时,外语发音仍带明显普通话腔调,粤语交流时也存在普通话词汇混用现象。

演示场景中,模型展现了多语言应用能力:解析意大利餐厅菜单后用法语推荐意面;识别毕加索博物馆游戏内容并讲解建筑历史;分析日语视频中的环境与对话内容。其system prompt定制功能让用户可以自由设定回复风格,例如成功模拟广东幼师用童趣语言讲解模型特性。

02. 22项测试登顶 创新架构设计

Qwen3-Omni在单模态任务保持Qwen系列水准的同时,音频处理能力更为突出。36项测试中32项位居开源首位,22项总评第一,语音识别性能堪比Gemini-2.5-Pro。

该模型采用Thinker-Talker创新架构:Thinker负责文本生成,Talker专注语音Token流式生成。通过2000万小时音频训练的AuT编码器提供通用音频表征,配合MoE架构实现高并发推理。独特的混训模式确保跨模态能力提升不影响单模态性能,全流程流式设计支持首帧Token实时音频转化。

03. 语音合成新标杆

Qwen3-TTS-Flash在中英稳定性、多语言表现上超越SeedTTS与GPT-4o,支持17种音色与10种语言,涵盖九种方言,首包延迟仅97ms。其在MiniMax多语言测试集中,中文、英文等语种的错误率和说话人相似度均领先同业。

04. 图像编辑新突破

Qwen-Image-Edit-2509新增多图拼接功能,强化了单图编辑一致性:人物ID保持、商品海报修改、文字样式调整等。原生支持ControlNet的深度图、边缘图处理。

05. 多模态赛道加速

此次升级彰显阿里在多模态领域的持续突破,Qwen3-TTS-Flash与Qwen3-Omni的协同将提升语音交互体验。团队透露未来将聚焦视频OCR、音视频主动学习等技术方向,强化智能体工作流支持,推动更多场景落地应用。

来源:https://36kr.com/p/3478838269286790

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
AI能从单份血样检出多种神经疾病

AI能从单份血样检出多种神经疾病

来源:科技日报科技日报讯 (记者刘霞)由瑞典隆德大学领衔的国际研究团队,研发出一款新的人工智能(AI)模型。该模型仅需一份血液样本,便能精准识别多种神经退行性疾病。团队期望,该AI模型未来能实现“一

时间:2026-04-07 14:55
褪去虚火,脑机接口方能释放长远价值

褪去虚火,脑机接口方能释放长远价值

来源:科技日报2026年开年,马斯克宣称脑机接口产品将于年内启动量产,引爆全球市场情绪。国内资本随即扎堆追捧,脑机接口相关概念股大幅走高,行业短期炒作虚火蔓延。进入3月,脑机接口迎来多重利好:脑机接

时间:2026-04-07 14:55
黎万强、洪锋退出小米科技股东名单

黎万强、洪锋退出小米科技股东名单

人民财讯4月7日电,企查查APP显示,近日,小米科技有限责任公司发生工商变更,原股东小米联合创始人黎万强、洪锋退出,同时,注册资本由18 5亿元减至约14 8亿元。 企查查信息显示,该公司成立于20

时间:2026-04-07 14:55
新闻分析|“阿耳忒弥斯2号”任务为何只绕月不登月

新闻分析|“阿耳忒弥斯2号”任务为何只绕月不登月

  新华社北京4月7日电 新闻分析|“阿耳忒弥斯2号”任务为何只绕月不登月  新华社记者张晓茹  美国东部时间6日18时40分许(北京时间7日6时40分许),执行美国“阿耳忒弥斯2号”载人绕月飞行任

时间:2026-04-07 14:55
“链接未来·智汇静安”区块链创新应用优秀场景分享(四)| 信医基于区块链与隐私计算的真实世界研究数据产品

“链接未来·智汇静安”区块链创新应用优秀场景分享(四)| 信医基于区块链与隐私计算的真实世界研究数据产品

聚焦数字技术,释放创新动能。为集中展示静安区区块链技术从“实验室”走向“应用场”的丰硕成果,挖掘一批可复制、可推广的行业解决方案,加速构建区块链产业生态闭环,静安区数据局特推出“静安区区块链创新应用

时间:2026-04-07 14:55
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程