阿里千问斩获NeurIPS 2025最佳论文,揭秘模型性能提升核心原理
11月27日,人工智能领域的顶级学术会议NeurIPS 2025正式公布本年度的最佳论文奖。阿里巴巴旗下通义千问团队凭借在注意力机制领域的创新研究,从全球5524篇投稿中脱颖而出,成为唯一获此殊荣的中国研究团队。
这项突破性研究首次系统揭示了注意力门控机制对大语言模型性能与训练稳定性的影响机制。研究团队通过在1.7B参数稠密模型与15B混合专家模型上进行超过3.5万亿token的大规模训练,并进行了30余组对照实验,不仅验证了门控注意力在提升模型性能方面的显著效果,还成功应用于新一代Qwen3-Next模型,显著提升了模型的推理能力与鲁棒性。

通义千问团队研究成果荣获NeurIPS 2025最佳论文奖
作为大语言模型架构中的关键技术组件,注意力门控机制如同模型的"智能降噪耳机",能有效过滤冗余信息,提升关键特征的提取效率。近年来,从AlphaFold2到Forgetting Transformer等前沿模型都尝试将门控机制与注意力计算相结合,但学术界始终缺乏对门控在注意力机制中有效性的理论解释,也缺少在工业级规模模型上的实践验证。
在本研究中,研究人员首次清晰阐述了门控注意力背后的工作原理,并系统展示了在注意力计算中应用门控机制的最优方式及扩展实践。实验结果显示,对各个注意力头的输出施加门控是提升模型性能最有效的方式。
具体而言,采用该方法仅需引入1%的额外参数,计算开销增幅低于2%,即可实现困惑度下降0.2以上、MMLU基准测试提升2个百分点的显著效果。进一步研究发现,该技术方案在更大规模模型训练上展现出更优的性能提升潜力。

通过论文方法,模型在引入少量额外参数和计算开销的情况下,实现了性能的显著提升
深入分析表明,注意力门控机制还解决了大模型长期存在的两大技术难题:注意力池现象,即少数特殊token在计算中产生异常大的注意力分数;以及大规模激活问题,即模型激活值出现远超正常范围的离群值。这两种现象在BF16等低精度训练环境下容易引发数值误差,影响训练稳定性与部署效果。实验数据显示,门控注意力将首token注意力占比从46.7%降至4.8%,同时将最大激活值从1053降低至94。
目前,该技术方案涉及的全部实验模型及产品级实现均已开源。NeurIPS评审委员会对此评价道:"我们相信该方法将获得广泛应用,这项重要工作将极大推动学界对大规模语言模型中注意力机制的理解。"
通义千问团队表示:"对门控机制等基础组件的深入理解,不仅为大语言模型架构设计提供了新思路,也为构建更稳定、高效、可控的大模型奠定了坚实基础。"
据了解,阿里千问系列模型目前已开源300余款不同规模架构的模型,覆盖全模态、全尺寸,全球下载量突破7亿次,衍生模型数量超过18万个,持续领跑全球开源社区。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
Romark Logistics与Dexory合作 以AI实时库存可视化平台优化仓储管理
在现代化仓储物流管理中,实现实时、精准的库存可视化是提升运营韧性与效率的核心环节。近日,知名定制化第三方物流服务商Romark Logistics宣布了一项重要技术升级:在其位于哈兹尔顿的仓储基地正式部署由Dexory提供的AI驱动仓储可视化平台DexoryView。此举标志着Romark Logi
谷歌Gemini Spark AI助手全天候处理数字任务提升效率
今天,谷歌正式将我们带入了一个新的阶段:AI智能体时代。其推出的Gemini Spark,被定义为一款能够全天候运行的个人AI助手。它的核心使命很明确——接管我们日益复杂的数字生活,并实实在在地替我们处理一些工作。 这款助手的“大脑”是最新发布的Gemini 3 5 Flash模型,而协调其行动的“
两款AI科学助手成功实现药物重定向应用
近日,《自然》杂志同期发表了两项突破性研究,展示了两种旨在革新科研工作流的AI系统。一款来自谷歌,名为Co-Scientist,强调人机深度协作;另一款由非营利机构FutureHouse开发,其系统更进一步,能对特定生物实验数据进行自动化评估与分析。 尽管谷歌表示其系统架构同样适用于物理学探索,但两
谷歌AI Studio上线 对话式开发安卓原生应用教程
谷歌近期对其“氛围编程”平台进行了重要升级。现在,开发者可以直接在谷歌AI Studio中,通过自然语言对话来构建安卓原生应用。 具体操作流程非常直观:用户只需用日常语言描述自己的应用构思,平台内置的安卓模拟器便会实时生成应用预览。若想在实际设备上测试,只需将安卓手机连接至电脑,即可直接安装体验。更
1099元龙虾耳机开箱评测音质与性价比如何
今天,科大讯飞旗下孵化的AI硬件品牌未来智能,正式发布了其创新产品——viaim讯飞智能体耳机。这款产品的核心突破在于,将先进的办公AI Agent能力,集成到一款日常可佩戴的耳机设备中。它不仅超越了传统录音转写功能,更实现了长期记忆存储、多模型灵活调用与智能复盘分析,目标清晰:将耳机从单纯的音频播
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

