当前位置: 首页
科技数码
实测:Qwen下一代基础架构突袭,秒解AIME数学竞赛题,提速10倍+性价比提升10倍

实测:Qwen下一代基础架构突袭,秒解AIME数学竞赛题,提速10倍+性价比提升10倍

热心网友 时间:2025-09-12
转载

Qwen下一代模型架构,抢先来袭!

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

Qwen3-Next发布,Qwen团队负责人林俊旸说,这就是Qwen3.5的抢先预览版。

基于Qwen3-Next,团队先开源了Qwen3-Next-80B-A3B-Base。

模型参数80B,但训练成本连Qwen3-32B的十分之一都不到,并且在32 k以上的上下文推理吞吐能达到后者的十倍以上。

基于这一模型,团队接连出手,同步开发并发布了两大新模型:

Qwen3-Next-80B-A3B-Instruct:在256K超长上下文处理任务中展现出显著优势。

Qwen3-Next-80B-A3B-Thinking:在多项基准测试中超越闭源模型Gemini-2.5-Flash-Thinking。

网友表示,这更新频率令人震惊。

话不多说,赶紧来看看新模型有哪些改进吧。

4大重要改进

Qwen3-Next的核心改进有4方面:

混合注意力机制 高稀疏度MoE结构 稳定性优化 多token预测机制

混合注意力机制

线性注意力在长上下文处理中效率很高,但召回能力有限,而标准注意力计算开销大、推理效率低,单独使用均存在局限。

为此,Qwen团队引入Gated DeltaNet,其在上下文学习能力上优于常用的滑动窗口注意力和Mamba2,并在采用3:1的混合策略(75%层使用 Gated DeltaNet,25%层保留标准注意力)时,兼顾性能与效率。

同时,在保留的标准注意力层中,他们进一步引入了多项优化设计:

1、延续先前工作的输出门控机制,以缓解注意力中的低秩问题;

2、将单个注意力头的维度从128扩展至256;

3、仅对注意力头前25%的维度加入旋转位置编码,以增强长序列外推能力。

高稀疏度MoE结构

Qwen3-Next采用高稀疏度的MoE架构,总参数量达800亿,但每次推理仅激活约30亿参数。

相比Qwen3-MoE的128个总专家和8个路由专家,Qwen3-Next 扩展到512个总专家,并采用10路由专家加1共享专家的组合设计,在保证性能的前提下最大化资源利用率。

训练稳定性优化

在Qwen3-Next中,团队为进一步提高模型稳定性,采用了Zero-Centered RMSNorm,并在此基础上,对norm weight施加weight decay,以避免权重无界增长。

不仅如此,他们还在初始化时归一化了MoE router的参数,确保每个expert在训练早期都能被无偏地选中,减小初始化对实验结果的扰动。

多token预测机制

Qwen3-Next引入了原生Multi-Token Prediction(MTP) 机制,不仅获得了Speculative Decoding接受率较高的MTP模块,还提升了模型主干的整体性能。

此外,它还对MTP的多步推理进行了专项优化,即通过训练推理一致的多步策略,进一步提高了在实际应用场景下Speculative Decoding的接受率。

快10倍,但便宜10倍

接下来,让我们一起看看新模型表现如何。

首先,Qwen3-Next使用了Qwen3 36T预训练语料的均匀采样子集,仅包含15T tokens。

其训练所需的GPU Hours不到 Qwen3-30A-3B的80%,相比 Qwen3-32B,仅需9.3%的GPU计算资源就能取得更优性能。

不仅如此,得益于创新的混合模型架构,Qwen3-Next在推理效率上也表现突出。

与Qwen3-32B相比,Qwen3-Next-80B-A3B在预填充(prefill)阶段就展现出卓越的吞吐能力:

在4k tokens的上下文长度下,吞吐量接近前者的7倍;当上下文长度超过32k时,吞吐提升更是达到10倍以上。

在解码(decode)阶段,该模型同样高效。4k上下文吞吐量提升约4倍,长上下文(32k+)场景中仍可保持超过10倍的吞吐优势。

基于Qwen3-Next,Qwen团队首先训练了Qwen3-Next-80B-A3B-Base模型。

该模型仅使用十分之一的Non-Embedding激活参数,就已在大多数基准测试中超越Qwen3-32B-Base,并显著优于Qwen3-30B-A3B,展现出出色的效率与性能优势。

基于Qwen3-Next-80B-A3B-Base的优异表现,团队进一步开发并发布了Qwen3-Next-80B-A3B-Instruct与Qwen3-Next-80B-A3B-Thinking。

Qwen3-Next-80B-A3B-Instruct

首先,Qwen3-Next-80B-A3B-Instruct的表现显著优于 Qwen3-30B-A3B-Instruct-2507和Qwen3-32B-Non-thinking,并在多数指标上接近Qwen3-235B-A22B-Instruct-2507。

除此之外,在RULER测试中,无论上下文长度如何,Qwen3-Next-80B-A3B-Instruct 的表现均超过了层数相同但注意力层更多的Qwen3-30B-A3B-Instruct-2507。

甚至在256 k范围内也优于层数更多的Qwen3-235B-A22B-Instruct-2507,充分体现了Gated DeltaNet与Gated Attention混合模型在长文本处理场景下的优势。

Qwen3-Next-80B-A3B-Thinking

再来看Qwen3-Next-80B-A3B-Thinking,其表现也相当不错。

在多项基准测试中都超过了闭源模型Gemini-2.5-Flash-Thinking,并在部分指标上接近Qwen最新的旗舰模型 Qwen3-235B-A22B-Thinking-2507。

推理能力相当可以

接下来让我们实测一下Qwen3-Next-80B-A3B的推理能力。

使用Qwen Chat网页,一上来就给它扔一道AIME数学竞赛题试试:

由于Qwen3-Next-80B-A3B支持多模态,这里我们可以直接上传图片。

几乎瞬间,模型就开始飞快地列出了详细解题思路和计算过程,最终得到的答案“588”与AIME标准答案完全吻合。

小试牛刀之后,接下来进入编程环节。

用p5js创建一个可直接玩的扫雷游戏。

麻 将

代码成功运行后,我们也简单试玩了一下,流畅度还可以(doge)。

就是谁能解释一下为什么这个游戏背景是大红色,还没有网格线???

还有网友奇思妙想,用它生成了天气卡片。

不过,看到这个更新时,网友开心之余还是忍不住吐槽:

名字实在太复杂了。

麻 将

参考链接:

[1]https://x.com/Alibaba_Qwen/status/1966197643904000262

[2]https://x.com/JustinLin610/status/1966199996728156167

[3]https://mp.weixin.qq.com/s/STsWFuEkaoUa8J8v_uDhag?scene=1

来源:https://36kr.com/p/3463502787614338

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
内存涨价停不下来!闪迪股价疯涨26倍 还能再涨3倍

内存涨价停不下来!闪迪股价疯涨26倍 还能再涨3倍

存储芯片狂欢:股价飞涨背后的逻辑与隐忧 最近,内存和闪存价格的飙升,成了科技圈最火热的话题之一。这波行情不仅让三星、SK海力士、美光这些巨头赚得盆满钵满——利润动辄暴涨五到十倍,更直接点燃了资本市场的热情,相关公司的股价一路高歌猛进。 看看这组数字就明白了:过去一年,三星股价翻了3倍,美光涨了3 5

时间:2026-04-14 22:05
内存价格疯涨终结?16GB DDR4现货价首跌5% 能买了?

内存价格疯涨终结?16GB DDR4现货价首跌5% 能买了?

在经历了整整一年的疯狂飙升后,内存市场终于露出了裂痕。 风向,似乎开始变了。4月10日,来自DigiTimes的消息显示,16GB DDR4芯片的现货价格在过去一个月里悄然下滑了约5%,目前徘徊在74 10美元左右。别看跌幅不大,意义却非同寻常——这是自2025年2月以来的首次月度下跌。要知道,在此

时间:2026-04-14 22:03
联想电脑占市场份额超1/4!全球PC出货量同比增长

联想电脑占市场份额超1/4!全球PC出货量同比增长

全球PC市场迎来“小阳春”,但供应链暗流涌动 市场研究机构Omdia最新发布的报告,给全球PC行业带来了一缕暖意。数据显示,2026年第一季度,全球个人电脑出货量达到6480万台,同比增长3 2%。 细分来看,笔记本市场稳中有升,出货5080万台,同比增长2 6%。而台式机的表现则更为亮眼,同比增长

时间:2026-04-14 22:03
老款数码产品

老款数码产品"文艺复兴"!有线耳机销量暴涨30%

市场调研机构Circana的报告提到,在经历了长达五年的销量下滑后,有线耳机市场强势反弹,仅2026年前三个月的销售额就暴涨了20%。 你猜怎么着?这股回暖的风,已经吹到了线下。据多家媒体报道,不少实体店的老板都感受到了变化。以往被冷落在角落的有线耳机,如今每天都有年轻人专门来挑,尤其是那些设计时尚

时间:2026-04-14 22:00
部分三星 Galaxy S22 Ultra 手机用户反馈恢复出厂后“变砖”:被神秘公司远程锁定

部分三星 Galaxy S22 Ultra 手机用户反馈恢复出厂后“变砖”:被神秘公司远程锁定

多名用户反馈:Galaxy S22 Ultra 恢复出厂设置后竟遭神秘公司远程锁定 近日,一起离奇的手机安全事件引发了广泛关注。据科技媒体 Android Authority 报道,多名三星 Galaxy S22 Ultra 用户遭遇了令人匪夷所思的状况:他们的手机在恢复出厂设置后,竟被一家名为 N

时间:2026-04-14 21:58
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程