首页
AI
阿里通义开源Qwen3-Omni:全球首个全能端到端AI模型

阿里通义开源Qwen3-Omni:全球首个全能端到端AI模型

热心网友
转载
2025-09-24
来源:https://www.ithome.com/0/884/975.htm

9月23日深夜,阿里云再次放出重磅消息,正式开源三款全新AI产品:端到端全模态模型Qwen3-Omni、智能语音合成系统Qwen3-TTS,以及面向图像编辑场景的Qwen-Image-Edit-2509。后者直接对标谷歌新近发布的Nano Banana图编工具。

作为业界首个原生端到端全模态AI模型,Qwen3-Omni突破性地实现了文本、图像、音频、视频等多种输入模态的融合处理,并支持实时流式输出文本与自然语音交互。这一创新彻底解决了多模态模型需要不同能力模块相互妥协的行业难题。

阿里通义深夜炸场:全球首个端到端全模态

Qwen3-Omni核心创新亮点

跨模态性能跃升:通过创新的文本核心预训练+混合多模态训练框架,模型在保持文本、图像单模态能力的同时,音频/视频处理性能大幅提升。在36项基准测试中,22项达到行业领先水平,32项在开源领域保持第一梯队。其语音识别和理解能力已可媲美Gemini 2.5 Pro。

超强多语言支持:覆盖119种文本语言处理,支持19种语音输入和10种语音输出语言体系,实现真正的全球化交互。

革命性架构设计:采用MoE混合专家系统和"思考者-表达者"协同框架,配合AuT预训练技术塑造极强的泛化能力。独创的多码本设计将响应延迟降至最低。

人性化交互体验:支持流式低延迟交互,可实现自然的轮换对话和即时反馈,重新定义了人机交互方式。

定制化控制系统:通过智能提示词配置,开发者可以轻松实现模型行为的细粒度控制。

专业音频描述模型:同步开源的Qwen3-Omni-30B-A3B-Captioner为准专业级音频描述工具,细节还原度高而幻觉率低,填补了开源社区在此领域的空白。

阿里通义深夜炸场:全球首个端到端全模态

资源获取通道

GitHub:https://github.com/QwenLM/Qwen3-Omni

抱抱脸:https://huggingface.co/collections/Qwen/qwen3-omni-68d100a86cd0906843ceccbe

魔搭:https://modelscope.cn/collections/Qwen3-Omni-867aef131e7d4f

Demo体验:https://huggingface.co/spaces/Qwen/Qwen3-Omni-Demo

阿里通义深夜炸场:全球首个端到端全模态

Qwen3-TTS语音合成系统

本次发布的文本转语音系统支持17种细腻音色选择,每种音色均可流畅输出10种语言。除标准普通话和主流国际语言外,更突破性地实现了中国八大方言支持:闽南语、吴语、粤语、四川话、北京话、南京话、天津话和陕西话。

关键性能方面,Qwen3-TTS-Flash在语音稳定性与音色保真度等核心指标上全面超越SeedTTS、MiniMax等竞品,甚至优于GPT-4o-Audio-Preview和Elevenlabs等业界标杆。

阿里通义深夜炸场:全球首个端到端全模态

Qwen-Image-Edit-2509图像编辑器

作为Qwen-Image系列的最新月度版本,该模型在图像一致性方面取得重大突破。与8月版本相比主要升级包括:

多图智能处理:创新性实现1-3张图像的组合编辑,完美支持"人像+人像"、"产品+场景"等复杂合成需求。

单品编辑优化:在人物肖像处理上显著提升身份特征保持能力;产品编辑时能更好地保留关键细节;文字编辑新增字体样式与色彩调整功能。

原生集成ControlNet:内置深度图、边缘图等专业处理模块,为创意工作者提供更多元的技术支撑。

阿里通义深夜炸场:全球首个端到端全模态

额外开源产品

Qwen3-Next-80B系列两个大模型版本也已同步开源:

抱抱脸:https://huggingface.co/collections/Qwen/qwen3-next-68c25fd6838e585db8eeea9d

魔搭:https://modelscope.cn/collections/Qwen3-Next-c314f23bd0264a

免责声明

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章

阿里联合英伟达发布AI新品,吴泳铭展望9.24科技未来

在2025阿里云栖大会上,阿里巴巴宣布与英伟达达成Physical AI领域深度合作。双方合作范围涵盖Physical AI全链条,包括数据合成与处理、模型训练、环境仿真强化学习以及模型验证测试等关

2025-09-25.

越疆机械臂与人形机器人工博会演示具身智能方案

工业自动化领域正经历一场深刻变革。传统工业机器人受限于单一功能与预设程序,在跨设备协作、多场景适配等方面遭遇发展瓶颈。在此背景下,协作机器人行业领军者越疆机器人以“具身工业”理念为突破口,通过构建“

2025-09-25.

OPPO Find X9系列首发丹霞镜头,加持哈苏2亿像素影像

9月24日消息,OPPO Find系列产品负责人周意保放出一组由Find X9系列拍摄的丹霞色彩样片,全面展示了全新升级的“丹霞色彩

2025-09-25.

天玑9500发布:影像技术突破,旗舰性能再升级

将于10月13日发布的年度影像旗舰vivo X300系列,确定全球首发联发科天玑9500处理器,同时该系列机型影像能力的重大提升,离

2025-09-25.

OPPO K13双机登场:流畅三防设计,性价比新选择

OPPO近日正式发布了其K系列新品——OPPO K13s和OPPO K13x,两款机型已在OPPO商城、京东、天猫等各大平台火热开售

2025-09-25.

热门教程

更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程

最新下载

更多
野蛮人大作战2
野蛮人大作战2 棋牌策略 2025-09-25更新
查看
最佳球会华为
最佳球会华为 体育竞技 2025-09-25更新
查看
诸神竞技场
诸神竞技场 休闲益智 2025-09-25更新
查看
最佳球会小米
最佳球会小米 体育竞技 2025-09-25更新
查看
最佳球会最新
最佳球会最新 体育竞技 2025-09-25更新
查看
茶叶蛋大冒险国际
茶叶蛋大冒险国际 休闲益智 2025-09-25更新
查看
守塔不能停
守塔不能停 棋牌策略 2025-09-25更新
查看
最佳球会犀游
最佳球会犀游 体育竞技 2025-09-25更新
查看
最佳球会九游渠道服
最佳球会九游渠道服 体育竞技 2025-09-25更新
查看
最佳球会vivo
最佳球会vivo 体育竞技 2025-09-25更新
查看