首页
AI
阿里云发布通义 Qwen3-Next 基础模型架构并开源 80B-A3B 系列:改进混合注意力机制、高稀疏度 MoE 结构

阿里云发布通义 Qwen3-Next 基础模型架构并开源 80B-A3B 系列:改进混合注意力机制、高稀疏度 MoE 结构

热心网友
转载
2025-09-13
来源:https://www.ithome.com/0/882/311.htm

9 月 12 日消息,阿里云通义团队今日宣布推出其下一代基础模型架构 Qwen3-Next,并开源了基于该架构的 Qwen3-Next-80B-A3B 系列模型(Instruct 与 Thinking)。

阿里云发布通义 Qwen3-Next 基础模型架构并开源 80B-A3B 系列:改进混合注意力机制、高稀疏度 MoE 结构

通义团队表示,Context Length Scaling 和 Total Parameter Scaling 是未来大模型发展的两大趋势,为了进一步提升模型在长上下文和大规模总参数下的训练和推理效率,他们设计了全新的 Qwen3-Next 的模型结构。

阿里云发布通义 Qwen3-Next 基础模型架构并开源 80B-A3B 系列:改进混合注意力机制、高稀疏度 MoE 结构

该结构相比 Qwen3 的 MoE 模型结构,进行了以下核心改进:混合注意力机制、高稀疏度 MoE 结构、一系列训练稳定友好的优化,以及提升推理效率的多 token 预测机制。

基于 Qwen3-Next 的模型结构,通义团队训练了 Qwen3-Next-80B-A3B-Base 模型,该模型拥有 800 亿参数(仅激活 30 亿参数)、3B 激活的超稀疏 MoE 架构(512 专家,路由 10 个 + 1 共享),结合 Hybrid Attention(Gated DeltaNet + Gated Attention)与多 Token 预测(MTP)。

从最新获悉,该 Base 模型实现了与 Qwen3-32B dense 模型相近甚至略好的性能,而它的训练成本仅为 Qwen3-32B 的十分之一不到,在 32k 以上的上下文下的推理吞吐则是 Qwen3-32B 的十倍以上,实现了极致的训练和推理性价比。

阿里云发布通义 Qwen3-Next 基础模型架构并开源 80B-A3B 系列:改进混合注意力机制、高稀疏度 MoE 结构

该模型原生支持 262K 上下文,最新称可外推至约 101 万 tokens。据介绍,Instruct 版在若干评测中接近 Qwen3-235B,Thinking 版在部分推理任务上超过 Gemini-2.5-Flash-Thinking。

阿里云发布通义 Qwen3-Next 基础模型架构并开源 80B-A3B 系列:改进混合注意力机制、高稀疏度 MoE 结构

据介绍,其突破点在于同时实现了大规模参数容量、低激活开销、长上下文处理与并行推理加速,在同类架构中具有一定代表性。

阿里云发布通义 Qwen3-Next 基础模型架构并开源 80B-A3B 系列:改进混合注意力机制、高稀疏度 MoE 结构

模型权重已在 Hugging Face 以 Apache-2.0 许可发布,并可通过 Transformers、SGLang、vLLM 等框架部署;第三方平台 OpenRouter 亦已上线。

免责声明

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章

京东许冉:AI投入三年超万亿,生态构建助力新品落地

在京东全球科技探索者大会上,京东集团SEC副主席兼CEO许冉以 "Enjoy AI "为主题,系统阐释了企业人工智能战略的核心框架。她提出 "人工智能价值=模型能力×用户体验×产业厚度平方 "的创新公式,强

2025-09-25.

阿里吴泳铭解析AI三阶段:从通用到超级AI发展路径

在2025云栖大会上,阿里巴巴集团CEO、阿里云智能集团董事长兼CEO吴泳铭发表了关于人工智能未来发展的深度见解。他明确指出,实现通用人工智能(AGI)已不再是悬念,但人工智能的演进远未止步,其终极

2025-09-25.

华为鲲鹏联合南光集团共建AI算力,助力企业数字化转型

扎根澳门七十余载,与新中国同龄的南光(集团)有限公司,始终秉持“根植澳门、融入内地、拓展海外”的战略方向,构建起覆盖能源保障、民生贸易、酒店旅游、城市建设、综合物流、文创会展、公共交通、现代金融等多

2025-09-25.

京东AI数字人「他她它」上线:毫秒响应,支持外卖点餐

在近日举办的京东全球科技探索者大会上,一款名为“他她它”的AI数字人产品成为焦点。这款基于京东自主研发的JoyAI大模型打造的智能助手,不仅突破了传统AI应用的交互边界,更通过多维度功能创新重新定义

2025-09-25.

京东AI三大产品发布 开启"量产时代"四大场景落地

京东在人工智能领域迈入规模化应用新阶段。9月25日,京东全球科技探索者大会在北京拉开帷幕,数字人主持人以科技感十足的方式亮相会场,标志着AI技术已深度融入会议全流程。大会现场,京东集团CEO许冉宣布

2025-09-25.

热门教程

更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程

最新下载

更多
剑二十七游戏
剑二十七游戏 角色扮演 2025-09-25更新
查看
怪怪水族馆
怪怪水族馆 休闲益智 2025-09-25更新
查看
奥奇传说vivo
奥奇传说vivo 角色扮演 2025-09-25更新
查看
停车大师
停车大师 休闲益智 2025-09-25更新
查看
文明曙光手游
文明曙光手游 角色扮演 2025-09-25更新
查看
超级玛丽世界手游
超级玛丽世界手游 动作冒险 2025-09-25更新
查看
龙纹
龙纹 角色扮演 2025-09-25更新
查看
多多自走棋国际服(Auto Chess)
多多自走棋国际服(Auto Chess) 棋牌策略 2025-09-25更新
查看
街头霸王3
街头霸王3 飞行射击 2025-09-25更新
查看
天使之翼
天使之翼 角色扮演 2025-09-25更新
查看