当前位置: 首页
AI
阿里千问斩获NeurIPS 2025最佳论文,揭秘模型性能提升核心原理

阿里千问斩获NeurIPS 2025最佳论文,揭秘模型性能提升核心原理

热心网友 时间:2025-11-27
转载

11月27日,人工智能领域的顶级学术会议NeurIPS 2025正式公布本年度的最佳论文奖。阿里巴巴旗下通义千问团队凭借在注意力机制领域的创新研究,从全球5524篇投稿中脱颖而出,成为唯一获此殊荣的中国研究团队。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

这项突破性研究首次系统揭示了注意力门控机制对大语言模型性能与训练稳定性的影响机制。研究团队通过在1.7B参数稠密模型与15B混合专家模型上进行超过3.5万亿token的大规模训练,并进行了30余组对照实验,不仅验证了门控注意力在提升模型性能方面的显著效果,还成功应用于新一代Qwen3-Next模型,显著提升了模型的推理能力与鲁棒性。

通义千问团队研究成果荣获NeurIPS 2025最佳论文奖

作为大语言模型架构中的关键技术组件,注意力门控机制如同模型的"智能降噪耳机",能有效过滤冗余信息,提升关键特征的提取效率。近年来,从AlphaFold2到Forgetting Transformer等前沿模型都尝试将门控机制与注意力计算相结合,但学术界始终缺乏对门控在注意力机制中有效性的理论解释,也缺少在工业级规模模型上的实践验证。

在本研究中,研究人员首次清晰阐述了门控注意力背后的工作原理,并系统展示了在注意力计算中应用门控机制的最优方式及扩展实践。实验结果显示,对各个注意力头的输出施加门控是提升模型性能最有效的方式。

具体而言,采用该方法仅需引入1%的额外参数,计算开销增幅低于2%,即可实现困惑度下降0.2以上、MMLU基准测试提升2个百分点的显著效果。进一步研究发现,该技术方案在更大规模模型训练上展现出更优的性能提升潜力。

通过论文方法,模型在引入少量额外参数和计算开销的情况下,实现了性能的显著提升

深入分析表明,注意力门控机制还解决了大模型长期存在的两大技术难题:注意力池现象,即少数特殊token在计算中产生异常大的注意力分数;以及大规模激活问题,即模型激活值出现远超正常范围的离群值。这两种现象在BF16等低精度训练环境下容易引发数值误差,影响训练稳定性与部署效果。实验数据显示,门控注意力将首token注意力占比从46.7%降至4.8%,同时将最大激活值从1053降低至94。

目前,该技术方案涉及的全部实验模型及产品级实现均已开源。NeurIPS评审委员会对此评价道:"我们相信该方法将获得广泛应用,这项重要工作将极大推动学界对大规模语言模型中注意力机制的理解。"

通义千问团队表示:"对门控机制等基础组件的深入理解,不仅为大语言模型架构设计提供了新思路,也为构建更稳定、高效、可控的大模型奠定了坚实基础。"

据了解,阿里千问系列模型目前已开源300余款不同规模架构的模型,覆盖全模态、全尺寸,全球下载量突破7亿次,衍生模型数量超过18万个,持续领跑全球开源社区。

来源:https://www.51cto.com/article/830622.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
Trae独立端上线:桌面与网页端同步开启内测

Trae独立端上线:桌面与网页端同步开启内测

​3月31日,字节跳动旗下AI编程产品TRAE推出“SOLO独立端”。TRAE 原有的 SOLO 模式(SOLO Agent)深度集成于传统 IDE 架构,此次 SOLO 独立端的推出,旨在优化新用

时间:2026-03-31 15:43
红果短剧用AI偷脸引争议,素人被侵权如何维权

红果短剧用AI偷脸引争议,素人被侵权如何维权

鞭牛士3月31日消息,话题“AI短剧 偷脸”登上热搜。热搜起源为,有网友在社交网络平台发文称,自己此前拍摄的照片被红果短剧旗下作品《桃花簪》未经授权擅自使用,并通过AI技术进行了内容生成。据该网友描

时间:2026-03-31 15:13
线下机器人真机PK:这届黑客松玩法揭秘

线下机器人真机PK:这届黑客松玩法揭秘

梦瑶 发自 凹非寺量子位 | 公众号 QbitAI机器人Demo大家都见过,但具身智能真机同台PK、当场对线,谁看了不得瞪大眼?(震惊 jpg)这场超燃的具身模型真机对决比赛,就发生在这两天在深圳举

时间:2026-03-31 15:07
百度入局AI赛道:2024年11家领军企业最新盘点

百度入局AI赛道:2024年11家领军企业最新盘点

智东西作者 程茜编辑 心缘智东西3月31日消息,昨日,中国联通发布2026年中国联通山东济南市行业客户智算一体机服务项目中标候选人公示,百度以2 9亿元中标。该项目于3月9日发布招标文件,采购内容包

时间:2026-03-31 15:01
京东直播新动作:刚需复杂指令与自由态数字人如何升级

京东直播新动作:刚需复杂指令与自由态数字人如何升级

编辑|泽南刚刚落幕的 2026 科技界「春晚」GTC 大会上,一个全行业的共识已经形成:AI 正在进入智能体(Agent)时代。然而,当各大厂商都在疯狂入局智能体时,一个尴尬的现实却摆在面前:这些聪

时间:2026-03-31 14:55
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程