数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

科技数码

震撼实锤，清华姚班校友揭「1.4×加速」陷阱：AI优化器为何名不符实？

震撼实锤，清华姚班校友揭「1.4×加速」陷阱：AI优化器为何名不符实？

热心网友时间：2025-09-08

转载

为了降低大模型预训练成本，最近两年，出现了很多新的优化器，声称能相比较AdamW，将预训练加速1.4×到2×。但斯坦福的一项研究，指出不仅新优化器的加速低于宣称值，而且会随模型规模的增大而减弱，该研究证实了严格基准评测的必要性。

麻将

一直以来，预训练，都是大模型训练过程中最花钱的部分。

比如，在DeepSeek V3中，它的成本占比就超过95%。

谁能在这里节省算力，就等于赚了。

长期以来，AdamW都是「默认选项」。但最近两年，出现了很多新的优化器。

它们大都声称能够相比AdamW，将预训练加速1.4×到2×，但却很少能真正落地。

斯坦福大学的研究人员，认为问题主要出现在两个方法学缺陷上：

一些基线的超参数调得不当；

许多实验局限于较小规模的设置，导致这些优化器在更广泛、更真实场景下的表现仍待验证。

论文地址：https://arxiv.org/abs/2509.02046

有趣的是，这篇论文的标题「神奇优化器在哪里」（Fantastic Pretraining Optimizers and Where to Find Them），正是「捏它」自《神奇动物在哪里》（Fantastic Beasts and Where to Find Them）。

不得不说，论玩梗还是大佬们厉害！

不同缩放范式下的加速差异

研究人员对比了大模型在不同缩放范式下的加速差异。

他们在四种不同的数据-模型比（相当于Chinchilla最优范式的 1×、2×、4×、8×）下进行基准测试，并将模型规模扩展到1.2B参数。

图1左上显示，在被广泛采用的GPT-3配方中，仅调一个超参数，就能让预训练获得2×的加速，这突显了正确超参数优化的重要性。

研究表明，在一系列模型规模和数据-模型比上，进行细致的超参数调优与训练结束时的评测是必要的，主要有三个原因：

首先，超参数不能盲目迁移，在优化器间固定超参数会导致不公平的比较。

第二，新优化器的加速低于宣称值，且随模型规模增大而减弱。相对于研究人员调优的AdamW基线，其他优化器的加速不超过1.4×。

此外，虽然Muon、Soap等新优化器在小模型（0.1B）上显示出1.3×加速，但在8×Chinchilla比例下的1.2B参数模型上，加速会降到约1.1×。

第三，早期的损失曲线可能产生显著误导。

在学习率衰减期间，不同优化器的损失曲线可能多次交叉，因此用中间检查点来评判优化器，得到的排名可能与在目标训练预算下比较的结果不同。

优化器设计的新见解

研究人员基于基准测试，带来了三个关于优化器设计的新见解：

1. 小模型更适合基于矩阵的优化器

研究人员发现，对于小模型，基于矩阵的优化器，持续优于基于标量的优化器。

基于标量的优化器（如AdamW、Lion、Mars等），需要通过标量操作逐个更新参数。

经过适当调参后，所有基于标量的优化器的优化速度与AdamW相近，平均加速比不足1.2×。

尽管其更新规则多样，但在小于520M参数的模型上，基于矩阵的优化器相对AdamW均可带来约1.3×的加速。

2. 最优优化器的选择，关键指标是「数据-模型比」

在1×Chinchilla范式下的赢家，随着数据-模型比提升，可能不再最优。

比如，在较小的Chinchilla比例下，Muon一直是表现最好的优化器。

但当数据-模型比增至8×或更高时，Kron和Soap的表现优于Muon（图3与图4）。

在本项研究中，研究人员研究了表1所列的11种优化器。

模型参数量，涵盖了130M、300M、520M、1.2B四种规模，详细超参数见表2。

超参数的三种调参方式

按照不同阶段，研究人员对超参数采用了三种不同程度的调参方式：

阶段1：对超参数进行「细颗粒度」调参

研究人员在6种不同设置上执行该遍历，具体为1×Chinchilla下的130M、300M、500M，以及2×、4×、8×Chinchilla下的130M。

对于每个优化器以及上述六种范式，研究人员都找到了一个按坐标的局部最优解。

表3是一个针对300M参数、1×Chinchilla的AdamW示例性超参数优化过程。

阶段2：着重调整对「尺度敏感」的超参数

由于广泛调参在更大规模实验上代价过高，所以，研究人员对该过程进行了简化，着重调整对「尺度敏感」的超参数。

如表4，研究人员仅将对尺度敏感的超参数带入阶段2，从而把下一轮调参对象集中在那些跨尺度确实需要重新调参的超参数上。

通过这组实验，研究人员观察到两点现象：

1.基于矩阵的优化器始终优于基于标量的优化器，但所有优化器相对AdamW的加速比都不超过1.5×；

2.在基于矩阵的优化器内部，Muon在1–4×Chinchilla比例下表现最佳，但随着Chinchilla比例提高，会被Soap与Kron反超。

阶段3：为进一步外推而建立超参数缩放律

研究人员基于阶段2获得的优化超参数设置，拟合一个平滑的缩放律，用以预测每个随尺度敏感的超参数的最优值。

作为模型大小N，与数据预算D的函数，研究人员将每个随尺度敏感超参数h的最优值建模为：

其中A、B、α与β为学习得到的系数。

研究人员在每个优化器的12个观测三元组(N，D，h)上，用非线性最小二乘来估计这些参数，使预测与真实最优超参数值的平方误差最小。

为检验预测质量，研究人员在N=1.2B、Chinchilla=1的设置下对AdamW运行了完整的阶段1遍历，并将识别出的最优解与拟合出的超参数进行对比。

在图2上图中，研究人员绘制了两个阶段的C4/EN验证损失；在图2下图中，研究人员绘制了为部分优化器选择的运行所对应的HellaSwag表现。

在图3中，显示了跨尺度的不同优化器加速。

研究人员通过为AdamW拟合缩放律，并将不同优化器的损失映射到对应的等效数据预算来估计加速，得到了以下二点观察：

1. 最高加速被限制在1.4×；

2. 基于矩阵的优化器始终优于基于标量的优化器，且随数据预算增加呈现更高的加速（表现出超线性趋势）。

实证发现

1. 在0.1B–0.5B参数模型上的结果

在所有模型规模与算力预算下，方差减少类的Adam变体（NAdamW、Mars、Cautious）与基于矩阵的优化器都相对AdamW基线，带来了加速。

然而，没有任何方法达到了过往文献声称的2×的加速。

研究人员得出如下结论：

（1）基于矩阵的方法优于基于标量的方法。加速比随数据预算增加而上升，但随模型规模增大而下降。

（2）方差削减技术带来小而稳定的提升。

在基于标量的家族中，所有方差削减型的Adam变体（NAdamW、Mars、Cautious）都稳定地超过vanilla的AdamW——仅在最小规模实验上有轻微落后。

（3）AdamW的内存高效变体与AdamW的表现保持紧密。

两种内存高效的AdamW变体（Lion、Adam-mini），尽管辅助状态更少，其表现与AdamW紧密跟随，最多仅慢5%，有时甚至优于AdamW。

2. 在1.2B参数模型上的结果

研究人员利用拟合的超参数缩放律，将模型规模扩大到1.2B，以考察优化器的加速如何随模型规模变化。

观察到NAdamW、Muon与Soap依然相对AdamW带来加速，但这些优化器的加速减弱到约1.1×（图4，左与中），且不再带来下游改进（表 5）。

3. 高数据-模型比

在130M与520M模型的8×Chinchilla范式下，Muon已被Soap超过。

为进一步验证，研究人员将三份300M模型训练到16×Chinchilla，并确认当数据-模型比增加时，Muon不再是最优优化器（图4，右）。

研究人员推测，当数据-模型比增大时，Soap与Kron保持的二阶动量会更有效。从长期看，对参数方向异质性的自适应可能带来更大的加速。

该研究证实了严格基准评测的必要性。

各优化器的共性现象

研究人员在预训练中，通过对11种深度学习优化器进行了基准评测，发现它们相对AdamW的真实增益远小于此前报道。

由此，研究人员强调了三个关键教训：

1.许多声称的加速源于超参数调优不足，因为公平的扫参会消除大多数表面的优势；

2.基于早期或不一致的评估进行比较可能具有误导性，因为在完整训练轨迹上优化器的排名常会发生变化；

3.即使表现最好的替代方案也只提供温和的加速，且随模型规模增大而进一步减弱，在12亿参数时降至1.1×。

作者介绍

Kaiyue Wen

Kaiyue Wen是斯坦福大学的博士生。目前在马腾宇 (Tengyu Ma) 的课题组进行轮转，同时与Percy Liang老师合作。

他本科毕业于清华大学姚班，期间获得了获得了马腾宇、刘知远、Andrej Risteski、张景昭、王禹皓以及李志远等多位老师的指导。

他的研究兴趣涵盖深度学习的理论与应用，长远目标是理解深度学习背后的物理学原理，并坚信理论分析与实证研究相结合是实现这一目标的关键。

马腾宇（Tengyu Ma）

Tengyu Ma是斯坦福大学计算机科学系和统计系的助理教授。

他本科毕业于清华姚班，于普林斯顿大学获得博士学位。

他的研究兴趣涵盖机器学习、算法理论等方向，具体包括：深度学习、（深度）强化学习、预训练/基础模型、鲁棒性、非凸优化、分布式优化以及高维统计学。

Percy Liang

Percy Liang是斯坦福大学计算机科学副教授，兼任基础模型研究中心（CRFM）主任。同时也是CodaLab Worksheets的创建者，并借此坚定倡导科研工作的可复现性。

他专注于通过开源和严格的基准测试，提升基础模型（特别是大语言模型）的可及性与可理解性。

他曾围绕机器学习和自然语言处理领域进行了广泛研究，具体方向包括鲁棒性、可解释性、人机交互、学习理论、知识落地、语义学以及推理等。

此前，他于2004年在MIT获得学士学位，并于2011年在UC伯克利获得博士学位。

参考资料

https://arxiv.org/abs/2509.02046

来源:https://36kr.com/p/3457494656750984

上一篇：把AI和别人家的AI比较，AI开始大破防？被AI背刺86857次后，人们终于……

下一篇：砍重量、减功能，苹果或再冲一次XR头显

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

同类文章

DeepSeek宣布永久降价梁文锋大幅让利远超市场预期

DeepSeek宣布永久降价梁文锋大幅让利远超市场预期

DeepSeek宣布其Pro模型API优惠将转为永久降价，调用成本大幅降低至原价的四分之一。同时，公司正进行高达500亿元的首轮融资，创始人梁文锋个人计划出资200亿元以强化控制权。降价与巨额融资相结合，旨在降低行业门槛、构建生态，并支撑其长期开源与AGI战略，展现了公司的长期主义视野。

时间：2026-05-23 22:20

国产600公斤推力涡扇发动机首飞成功中国心实现自研突破

国产600公斤推力涡扇发动机首飞成功中国心实现自研突破

5月23日，搭载国产F406涡扇发动机的气象无人机首飞成功。该发动机推力600公斤级，由我国自主研制，拥有完整知识产权，实现了中小推力高端涡扇发动机的自主可控。其具备高空高速稳定运行能力，填补了国内相关技术空白，将为无人机及低空经济发展提供可靠动力支撑。

时间：2026-05-23 22:19

小米米家空调巨省电Pro大1.5匹价格降至1868元

小米米家空调巨省电Pro大1.5匹价格降至1868元

2026年3月6日，备受期待的小米米家巨省电 Pro 空调 2026 款正式上市销售。作为新品，其大1 5匹型号的官方首发定价为2499元，性价比优势显著。恰逢京东618年中购物节，这款新上市的空调迎来了绝佳的入手时机。消费者通过叠加平台提供的促销优惠与政府发放的节能补贴，最终到手价格可以做到更具

时间：2026-05-23 22:19

国产600公斤推力涡扇发动机成功完成首次飞行

国产600公斤推力涡扇发动机成功完成首次飞行

5月23日，我国自主研制的600公斤推力级F406涡扇发动机成功完成首次飞行试验。发动机驱动气象无人机平稳飞行并安全返航，各项参数稳定。此次试飞标志着我国在中小推力高端涡扇发动机领域实现了自主可控与国产化突破，该发动机将为低空经济和无人体系提供关键动力支撑。

时间：2026-05-23 22:18

国产600公斤推力涡扇发动机首飞成功核心技术自主研制

国产600公斤推力涡扇发动机首飞成功核心技术自主研制

5月23日，我国自主研制的600公斤推力级F406涡扇发动机成功完成首次飞行试验。该发动机以双发配置驱动一架先进气象无人机，全程工作平稳，安全返航。此次试飞标志着我国在中小推力高端涡扇发动机领域实现自主可控与国产化，将为低空经济与无人体系发展提供可靠动力。

时间：2026-05-23 22:17

热门专题

刀塔传奇破解版无限钻石下载大全

刀塔传奇破解版无限钻石下载大全

洛克王国正式正版手游下载安装大全

洛克王国正式正版手游下载安装大全

思美人手游下载专区

思美人手游下载专区

好玩的阿拉德之怒游戏下载合集

好玩的阿拉德之怒游戏下载合集

不思议迷宫手游下载合集

不思议迷宫手游下载合集

百宝袋汉化组游戏最新合集

百宝袋汉化组游戏最新合集

jsk游戏合集30款游戏大全

jsk游戏合集30款游戏大全

宾果消消消原版下载大全

宾果消消消原版下载大全

日榜
周榜
月榜

Take-Two 采用 AI 技术制作游戏预告片

锚点降临伤害计算公式与实战解析

上海开眼信息以资深经验领跑2026年GEO优化与AI智能营销服务

《命运2》停更后 Bungie新作《马拉松》遭玩家差评

2026年三维扫描仪选购指南精度自动化与服务全面解析

嘉德股份首日上市暴涨710% 中签一手盈利5.6万元

WPS文档背景颜色设置技巧提升视觉体验

通义万象制作壁纸与头像的图片效果实测

奔驰纯电GLC到店实拍 630马力空气悬架豪华科技配置价格解析

PPT演示如何添加背景音乐并提升效果

漫蛙漫画防走失网页链接

永劫无间账号购买平台推荐与安全交易指南

梦幻魔法公主善恶值系统解析与调整方法指南

茶叶蛋的冒险第14关荡秋千怎么过图文通关攻略详解

无畏契约源能行动一局游戏需要多长时间

茶叶蛋大冒险第16关怎么过相对运动图文通关攻略

蓝色星原旅谣角色强度榜与技能实战解析

蔚蓝星球零氪微氪新手攻略 20条技巧助你开局避坑

茶叶蛋大冒险第18关通关攻略图文详解隐藏关卡怎么过

文字三国志游戏评测与新手玩法指南

漫蛙漫画防走失网页链接

《问剑长生》新大区预创角开启，是什么福利让玩家直呼夯爆了？

紧急！Axios 被投毒，3亿项目受到影响！教你怎么自查！

兆易创新2025年年营收92亿元，净利16亿元

TensorFlow - AI开发平台,AI开发框架

解决sql server2008注册表写入失败，vs2013核心功能安装失败

《九牧之野》S3乱世诡道主题服开启：4月18日上线，预备盟奖励与开服福利一文看懂

donk：对待季军赛的心态和决赛不一样，总之已经拿不到冠军了

iPhone 15耳机连接后音量小原因排查与解决

蛮荒领主手游测试资格获取方式蛮荒领主内测资格申请渠道与条件详解

相关攻略

相关攻略

《炎龙骑士团2》详细全攻略

2015-03-10 11:25

《炎龙骑士团2》详细全攻略

《东吴霸王传2013》详细全关攻略

2015-03-10 11:05

《东吴霸王传2013》详细全关攻略

《臭作》之100%全完整攻略

2021-08-04 13:30

《臭作》之100%全完整攻略

《兰斯8》剧情攻略详细篇

2015-03-10 11:22

《兰斯8》剧情攻略详细篇

《英雄坛说》详细全攻略

2015-03-10 12:39

《英雄坛说》详细全攻略

《造梦西游2：十殿阎罗篇》BOSS档案及掉落装备全介绍及攻略

2022-05-16 18:57

《造梦西游2：十殿阎罗篇》BOSS档案及掉落装备全介绍及攻略

偷窃少女的教育方法全攻略

2025-05-23 13:43

偷窃少女的教育方法全攻略

无法抵挡小恶魔的诱惑攻略

2025-05-23 14:01

无法抵挡小恶魔的诱惑攻略

热门教程

游戏攻略
安卓教程
苹果教程
电脑教程

最后生还者第二季剧情改动未引热议编剧坦言意外

最后生还者第二季剧情改动未引热议编剧坦言意外发布于 2026-05-23

最后生还者第二季第六集剧情解析艾莉回忆父女情感线

最后生还者第二季第六集剧情解析艾莉回忆父女情感线发布于 2026-05-23

逃跑吧少年战术道具卡解析挨打装死实战技巧教学

逃跑吧少年战术道具卡解析挨打装死实战技巧教学发布于 2026-05-23

劲铠生日庆典 DMM角色日玩法全解析

劲铠生日庆典 DMM角色日玩法全解析发布于 2026-05-23

我的世界传奇天境更新7月14日上线市场

我的世界传奇天境更新7月14日上线市场发布于 2026-05-23

燕云十六声常平仓玩法攻略详解

燕云十六声常平仓玩法攻略详解发布于 2026-05-23

光遇与中国绊爱联动同人作品征集活动开启

光遇与中国绊爱联动同人作品征集活动开启发布于 2026-05-23

代号妖鬼龙千疮百孔流最强搭配方案与实战教学

代号妖鬼龙千疮百孔流最强搭配方案与实战教学发布于 2026-05-23

豚豚多财游戏玩法介绍与可玩性深度评测

豚豚多财游戏玩法介绍与可玩性深度评测发布于 2026-05-23

夏日清凉活动指南消暑优惠与玩法全攻略

夏日清凉活动指南消暑优惠与玩法全攻略发布于 2026-05-23

FURYU新作异界揭踪10月29日上线昭和风异形技能TPS求生

FURYU新作异界揭踪10月29日上线昭和风异形技能TPS求生发布于 2026-05-23

《极限竞速：地平线6》碾压稻田引热议玩家集体心疼农民劳动成果

《极限竞速：地平线6》碾压稻田引热议玩家集体心疼农民劳动成果发布于 2026-05-23

神鬼寓言今秋多平台同步发售 Playground Games正式确认

神鬼寓言今秋多平台同步发售 Playground Games正式确认发布于 2026-05-23

代号梦境行者游戏评测与新手玩法全攻略

代号梦境行者游戏评测与新手玩法全攻略发布于 2026-05-23

最终幻想7重生XBOX版预载开启游戏容量169GB

最终幻想7重生XBOX版预载开启游戏容量169GB 发布于 2026-05-23

鬼泣5 PC版持续更新 SteamDB页面动态引关注

鬼泣5 PC版持续更新 SteamDB页面动态引关注发布于 2026-05-23

Windows批量修改文件后缀名教程使用CMD命令一键快速完成

Windows批量修改文件后缀名教程使用CMD命令一键快速完成发布于 2026-05-20

Win11 查看 CPU 硬件级安全隔离支持方法提升系统防御力

Win11 查看 CPU 硬件级安全隔离支持方法提升系统防御力发布于 2026-05-20

如何查询Mac型号年份与配置信息

如何查询Mac型号年份与配置信息发布于 2026-05-20

Linux系统Nginx服务器HTTPS证书安装配置教程

Linux系统Nginx服务器HTTPS证书安装配置教程发布于 2026-05-20

Mac放大镜功能开启指南轻松看清屏幕细节

Mac放大镜功能开启指南轻松看清屏幕细节发布于 2026-05-20

Mac终端清理DNS缓存详细步骤与操作指南

Mac终端清理DNS缓存详细步骤与操作指南发布于 2026-05-20

Win11任务栏合并标签如何关闭恢复经典文字导航栏

Win11任务栏合并标签如何关闭恢复经典文字导航栏发布于 2026-05-20

Mac桌面图标自动整理技巧：堆栈功能高效管理文件

Mac桌面图标自动整理技巧：堆栈功能高效管理文件发布于 2026-05-20

国产内存新架构突破30TB带宽实现自主供应链

国产内存新架构突破30TB带宽实现自主供应链发布于 2026-05-11

Edge浏览器网页捕获功能使用教程截取全屏与区域截图详解

Edge浏览器网页捕获功能使用教程截取全屏与区域截图详解发布于 2026-05-11

千度手机版官网免费入口手机端专用访问链接

千度手机版官网免费入口手机端专用访问链接发布于 2026-05-11

ES文件浏览器复制文件内容到剪贴板详细步骤教程

ES文件浏览器复制文件内容到剪贴板详细步骤教程发布于 2026-05-11

如何设置鼠标连点器的固定点击间隔秒数

如何设置鼠标连点器的固定点击间隔秒数发布于 2026-05-11

苹果iPhone 15截屏保存到相册的详细步骤教程

苹果iPhone 15截屏保存到相册的详细步骤教程发布于 2026-05-11

立升净水器滤芯更换方法与使用指南

立升净水器滤芯更换方法与使用指南发布于 2026-05-11

ES文件浏览器如何设置默认打开应用详细图文教程

ES文件浏览器如何设置默认打开应用详细图文教程发布于 2026-05-11

热门话题

魔术游戏下载-魔术游戏-2022热门的魔术小游戏大全

魔术游戏下载-魔术游戏-2022热门的魔术小游戏大全

刀塔传奇破解版在哪下-刀塔传奇破解版无限钻石下载大全-刀塔传奇破解版内购破解版合集

刀塔传奇破解版在哪下-刀塔传奇破解版无限钻石下载大全-刀塔传奇破解版内购破解版合集

饥荒下载免费中文版-饥荒下载破解版-饥荒正版全部版本下载合集

饥荒下载免费中文版-饥荒下载破解版-饥荒正版全部版本下载合集

拉布布游戏下载-拉布布游戏合集-拉布布系列游戏大全合集

拉布布游戏下载-拉布布游戏合集-拉布布系列游戏大全合集

洛克王国手游正版下载-洛克王国正版手游下载安装大全-类似洛克王国的手机游戏推荐

洛克王国手游正版下载-洛克王国正版手游下载安装大全-类似洛克王国的手机游戏推荐

神魔幻想单机游戏下载-神魔幻想单机游戏推荐-神魔幻想系列游戏下载合集

神魔幻想单机游戏下载-神魔幻想单机游戏推荐-神魔幻想系列游戏下载合集

最受女生欢迎的游戏_女生玩的手游_思美人手游下载专区

最受女生欢迎的游戏_女生玩的手游_思美人手游下载专区

疯狂越野系列游戏下载_疯狂越野全版本合集中文版下载

疯狂越野系列游戏下载_疯狂越野全版本合集中文版下载

神庙逃亡2破解无限金币无限钻石下载-神庙逃亡2国际版破解大全-神庙逃亡2版本合集

神庙逃亡2破解无限金币无限钻石下载-神庙逃亡2国际版破解大全-神庙逃亡2版本合集