FP4训练不稳定的真正原因 AMD新研究揭示关键问题
众所周知,大模型训练的成本极高,动辄数千万甚至上亿美元。但行业里也一直有个共识:降低训练精度,是压缩成本最直接的技术路径之一。想想看,DeepSeek-V3用FP8精度训练,就把成本压到了560万美元,这已经让整个业界为之侧目。

在FP8的成功之后,探索的边界自然被推向了更极致的地方:如果从FP8降到FP4,训练成本还能再降多少?理论上,FP4的计算吞吐量可以是FP8的两倍。硬件厂商已经摩拳擦掌,NVIDIA的Blackwell和AMD的MI350系列都已原生支持FP4运算。硬件是准备好了,可软件和算法那边,却卡在了一个让人头疼的问题上:
用FP4从头训练大模型,过程非常不稳定,动不动就“崩”。
过去两年,LLM-FP4、NVFP4预训练等研究都尝试过这条路,但鲜有方案能干净利落地用4比特精度跑完全流程预训练,同时还能保持接近FP8的模型质量。更麻烦的是,大家一直没搞清楚崩溃的根本原因。之前的分析普遍认为,问题可能出在随机性不足上。
然而,最近AMD联合宾夕法尼亚州立大学发布的一篇论文,彻底碘伏了这个传统认知,为原生FP4训练给出了一个全新的、清晰的诊断。
- 论文标题:Pretraining large language models with MXFP4 on Native FP4 Hardware
- 论文链接:https://arxiv.org/abs/2605.09825
这项研究在AMD Instinct MI355X GPU上,使用MXFP4格式成功完成了Llama 3.1-8B模型的全流程预训练。端到端的训练速度比FP8基线快了9-10%,而为了达到相同效果所消耗的token数量仅多了8-9%。这是目前首个在原生FP4硬件(而非软件模拟)上完成大模型预训练的完整实验。
但论文更重要的贡献在于,它揭示了核心问题的真相:FP4训练的不稳定性,其根源并非随机性不足,而是结构性的微缩放误差,沿着敏感的梯度路径不断累积并放大所导致的。
MXFP4是什么
在深入拆解论文之前,有必要先理解一下MXFP4这个数据格式。它与传统的整数量化思路不同。
传统方法通常对整个张量使用一个统一的缩放因子。MXFP4的核心设计叫做“微缩放”:它把一个张量切成许多小块(例如,每32个元素为一组),为每个小块分配一个共享的指数(采用E8M0格式),而块内的每个元素则用4比特浮点数来表示。
微缩放的好处显而易见:每个小块拥有自己独立的动态范围,不会被整个张量中个别极端异常值“绑架”。这使得4比特浮点数的表示质量,远比简单的全局量化要好得多。
但即便有了微缩放这项“利器”,FP4训练依然不稳定。问题到底出在哪?
排查实验:不稳定的根源
研究团队设计了一套精妙的逐步排查实验。一次完整的Transformer线性层计算,涉及三个通用的矩阵乘法操作:
- Fprop(前向传播):计算 Y = XW^T,产出激活值。
- Dgrad(激活梯度):计算 ∇X = ∇Y · W,将梯度回传给输入。
- Wgrad(权重梯度):计算 ∇W = (∇Y)^T · X,产出用于更新权重的梯度。
研究团队保持其他所有条件不变,逐步将这三个操作从FP8替换成MXFP4,观察每一步对模型收敛的影响。所有实验均在AMD Instinct MI355X上使用原生FP4张量核心执行,不依赖任何软件模拟。
训练任务采用MLPerf标准设置,在C4数据集上预训练Llama 3.1-8B,目标是将验证集困惑度降至3.3。
实验结果很有启发性。将前向传播(Fprop)和激活梯度计算(Dgrad)替换为MXFP4,只带来了温和的额外token开销。然而,一旦将权重梯度计算(Wgrad)也换成MXFP4,开销立刻跃升至26-27%。
结论很明确:Wgrad是FP4训练的瓶颈所在。模型对前向传播和激活梯度中的FP4量化有相当的容忍度,但权重梯度一旦被压缩到4比特,收敛质量就会出现显著退化。
这里就引出了一个关键的反直觉发现。业界此前的主流思路是:FP4量化误差本质上是噪声问题,因此可以通过注入随机性来“平滑”误差分布。常见的两种策略是:
- 随机舍入:在量化时引入随机性,使得舍入误差的期望值为零。
- 随机Hadamard旋转:在量化前,使用带随机符号翻转的Hadamard变换来打散数据分布。
但在这项实验中,当Wgrad被量化后,这两种随机性策略不仅没有稳定训练,反而直接导致了模型无法收敛。随机性非但没有帮忙,反而在关键的梯度路径上引入了更多“有效”的量化误差。
相比之下,确定性的Hadamard旋转(即每一步使用相同的变换)表现惊人,它将全流程的token开销从26-27%大幅压回至8-9%,训练轨迹紧密跟踪FP8基线。
这个对比结果极具诊断价值。随机和确定性的Hadamard旋转都是正交变换,理论上都能打散异常值的能量分布,对量化误差的缓解效果应该类似。但它们在Wgrad场景下的表现却截然相反。这恰恰揭示了问题的本质:
FP4训练的不稳定性,是由MXFP4微缩放在敏感梯度路径上产生的结构性误差所驱动的。随机性策略之所以失败,是因为它们在每一步引入了不同的误差模式,这些变化的模式沿着梯度路径累积,反而放大了不稳定性。确定性旋转之所以有效,正是因为它每一步都施加相同的变换,使得误差模式保持一致,从而避免了误差的混乱累积。
端到端效率:训练步吞吐+20%,综合加速9-10%
在应用了确定性Hadamard旋转,并启用全流程MXFP4之后,效率数据如下:训练每一步的吞吐量提升了20%。扣除为达到相同效果而多消耗的8-9%的token后,端到端的综合加速仍有9-10%。
考虑到这是将精度从8比特直接砍半到4比特,这样的收敛质量和加速幅度已经相当可观。
论文中的图表也清晰展示了对比:在C4数据集上,采用MXFP4加确定性Hadamard旋转的方案,其验证困惑度曲线与FP8基线非常接近;而未经验定化处理的全流程MXFP4则收敛更慢,稳定性也更差。在训练后期的局部放大图中,确定性Hadamard方案与FP8基线保持了高度一致性。
当然,作者在论文中也明确强调了一项重要限制:这套FP4训练方案在MLPerf C4数据集和Llama 3.1-8B模型上的效果已得到验证,但不能直接假设它能无缝迁移到所有模型、数据集和训练方法。FP4训练的行为可能是高度依赖具体设置的,稳定的策略需要根据实际场景重新验证和调整。
结语
把这篇文章放到更大的产业脉络里看,至少有三层意义。
第一层,它回答了一个根本性的“为什么”。过去的FP4训练研究大多聚焦于“怎么让它不崩”,而这篇文章第一次给出了清晰的因果诊断:崩溃源于Wgrad路径上的结构性微缩放误差,而非随机性不足。这个诊断本身具有很高的方法论价值,它告诉后续的研究者:在低精度训练中遇到不稳定性时,应该优先排查结构性的误差源,而不是盲目地去增加随机性。
第二层,它把FP4从“推理专属”推向了“训练可用”。此前的行业共识是,FP4只适合用于推理时的模型量化,训练至少要用FP8。NVIDIA在Blackwell上主推FP4推理而非训练,也反映了这一判断。这篇文章在原生FP4硬件上跑通了全流程预训练,意味着MI355X和Blackwell上那些为推理准备的FP4算力,理论上也可以被用于训练。如果FP4训练在更大模型和更多场景上被验证可行,那就等同于现有硬件的可用训练算力直接翻倍。
第三层,它基于开放标准。MXFP4是OCP Microscaling格式标准的一部分,其背后有AMD、NVIDIA、Intel、Meta、Microsoft、Arm、Qualcomm七家公司的联合支持。基于开放标准意味着这套方法在不同厂商的硬件上都具有可移植性,不会被锁定在单一的生态里。
从FP16到FP8,DeepSeek-V3已经证明精度减半可以大幅降低训练成本。如今,从FP8到FP4,这篇论文迈出了关键的第一步。精度每砍下一刀,整个大模型训练的经济性天平,都在发生微妙的、却是根本性的转变。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
豆包AI多文档对比功能详解:如何高效分析内容差异
豆包AI虽无直接对比多文档的按钮,但可通过组合方法实现。分步上传文档后,用精准指令驱动语义比对,适合少量文档。预处理文档为带标识的纯文本,可实现结构化精细对比。对合规性要求高的场景,可先用专业工具生成差异报告,再由AI进行深度语义分析与归纳。
江西理工大学中澳智能制造学院获批成立中外合作办学机构
江西理工大学与澳大利亚詹姆斯库克大学合作设立的中澳智能制造学院近日获批,落户南昌校区。学院涵盖本、硕、博全层次培养,开设智能制造工程、人工智能等专业,依托双方科研实力,服务国家智能制造战略与区域发展需求,聚焦产业链创新,推动专业升级,培养高层次人才。
豆包AI面试官系统搭建指南与实战教程
豆包大模型需通过精准指令激活才能模拟专业面试官。核心指令包括身份锚定、行为约束与追问触发,以聚焦岗位能力并控制流程。语音模式下需避免误打断、权限拦截和通知干扰。为保障效果,应将模拟提问与复盘分析拆分为两轮独立进行,以克服模型处理长上下文的局限。
千问对比LLaMA模型的独特优势与核心差异解析
千问模型相比LLaMA系列在中文理解与生成、结构化输出与工具调用方面表现更强,在权威基准测试中领先。其轻量级版本针对边缘设备优化,资源占用低且运行稳定,同时长上下文处理更可靠,数学与代码能力经过专项强化,更适配中文环境及复杂实际应用。
杰克科技股价下跌4.53% 成交2.38亿元主力净流出2141万
5月27日,杰克科技(股票代码:603337)股价出现显著调整,当日收盘下跌4 53%,引发市场关注。全天成交额达2 38亿元,换手率为1 15%,公司总市值报206 76亿元。 异动原因深度解析 本次股价波动,市场焦点主要集中于公司所涉及的“人形机器人、机器视觉、工业互联网、人工智能”等热门概念。
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

