FP4训练不稳定的真正原因 AMD新研究揭示关键问题

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

FP4训练不稳定的真正原因 AMD新研究揭示关键问题

热心网友时间：2026-05-27

转载

众所周知，大模型训练的成本极高，动辄数千万甚至上亿美元。但行业里也一直有个共识：降低训练精度，是压缩成本最直接的技术路径之一。想想看，DeepSeek-V3用FP8精度训练，就把成本压到了560万美元，这已经让整个业界为之侧目。

AMD新论文碘伏认知：FP4训练不稳定，原因不是随机性不足

在FP8的成功之后，探索的边界自然被推向了更极致的地方：如果从FP8降到FP4，训练成本还能再降多少？理论上，FP4的计算吞吐量可以是FP8的两倍。硬件厂商已经摩拳擦掌，NVIDIA的Blackwell和AMD的MI350系列都已原生支持FP4运算。硬件是准备好了，可软件和算法那边，却卡在了一个让人头疼的问题上：

用FP4从头训练大模型，过程非常不稳定，动不动就“崩”。

过去两年，LLM-FP4、NVFP4预训练等研究都尝试过这条路，但鲜有方案能干净利落地用4比特精度跑完全流程预训练，同时还能保持接近FP8的模型质量。更麻烦的是，大家一直没搞清楚崩溃的根本原因。之前的分析普遍认为，问题可能出在随机性不足上。

然而，最近AMD联合宾夕法尼亚州立大学发布的一篇论文，彻底碘伏了这个传统认知，为原生FP4训练给出了一个全新的、清晰的诊断。

论文标题：Pretraining large language models with MXFP4 on Native FP4 Hardware
论文链接：https://arxiv.org/abs/2605.09825

这项研究在AMD Instinct MI355X GPU上，使用MXFP4格式成功完成了Llama 3.1-8B模型的全流程预训练。端到端的训练速度比FP8基线快了9-10%，而为了达到相同效果所消耗的token数量仅多了8-9%。这是目前首个在原生FP4硬件（而非软件模拟）上完成大模型预训练的完整实验。

但论文更重要的贡献在于，它揭示了核心问题的真相：FP4训练的不稳定性，其根源并非随机性不足，而是结构性的微缩放误差，沿着敏感的梯度路径不断累积并放大所导致的。

MXFP4是什么

在深入拆解论文之前，有必要先理解一下MXFP4这个数据格式。它与传统的整数量化思路不同。

传统方法通常对整个张量使用一个统一的缩放因子。MXFP4的核心设计叫做“微缩放”：它把一个张量切成许多小块（例如，每32个元素为一组），为每个小块分配一个共享的指数（采用E8M0格式），而块内的每个元素则用4比特浮点数来表示。

微缩放的好处显而易见：每个小块拥有自己独立的动态范围，不会被整个张量中个别极端异常值“绑架”。这使得4比特浮点数的表示质量，远比简单的全局量化要好得多。

但即便有了微缩放这项“利器”，FP4训练依然不稳定。问题到底出在哪？

排查实验：不稳定的根源

研究团队设计了一套精妙的逐步排查实验。一次完整的Transformer线性层计算，涉及三个通用的矩阵乘法操作：

Fprop（前向传播）：计算 Y = XW^T，产出激活值。
Dgrad（激活梯度）：计算 ∇X = ∇Y · W，将梯度回传给输入。
Wgrad（权重梯度）：计算 ∇W = (∇Y)^T · X，产出用于更新权重的梯度。

研究团队保持其他所有条件不变，逐步将这三个操作从FP8替换成MXFP4，观察每一步对模型收敛的影响。所有实验均在AMD Instinct MI355X上使用原生FP4张量核心执行，不依赖任何软件模拟。

训练任务采用MLPerf标准设置，在C4数据集上预训练Llama 3.1-8B，目标是将验证集困惑度降至3.3。

实验结果很有启发性。将前向传播（Fprop）和激活梯度计算（Dgrad）替换为MXFP4，只带来了温和的额外token开销。然而，一旦将权重梯度计算（Wgrad）也换成MXFP4，开销立刻跃升至26-27%。

结论很明确：Wgrad是FP4训练的瓶颈所在。模型对前向传播和激活梯度中的FP4量化有相当的容忍度，但权重梯度一旦被压缩到4比特，收敛质量就会出现显著退化。

这里就引出了一个关键的反直觉发现。业界此前的主流思路是：FP4量化误差本质上是噪声问题，因此可以通过注入随机性来“平滑”误差分布。常见的两种策略是：

随机舍入：在量化时引入随机性，使得舍入误差的期望值为零。
随机Hadamard旋转：在量化前，使用带随机符号翻转的Hadamard变换来打散数据分布。

但在这项实验中，当Wgrad被量化后，这两种随机性策略不仅没有稳定训练，反而直接导致了模型无法收敛。随机性非但没有帮忙，反而在关键的梯度路径上引入了更多“有效”的量化误差。

相比之下，确定性的Hadamard旋转（即每一步使用相同的变换）表现惊人，它将全流程的token开销从26-27%大幅压回至8-9%，训练轨迹紧密跟踪FP8基线。

这个对比结果极具诊断价值。随机和确定性的Hadamard旋转都是正交变换，理论上都能打散异常值的能量分布，对量化误差的缓解效果应该类似。但它们在Wgrad场景下的表现却截然相反。这恰恰揭示了问题的本质：

FP4训练的不稳定性，是由MXFP4微缩放在敏感梯度路径上产生的结构性误差所驱动的。随机性策略之所以失败，是因为它们在每一步引入了不同的误差模式，这些变化的模式沿着梯度路径累积，反而放大了不稳定性。确定性旋转之所以有效，正是因为它每一步都施加相同的变换，使得误差模式保持一致，从而避免了误差的混乱累积。

端到端效率：训练步吞吐+20%，综合加速9-10%

在应用了确定性Hadamard旋转，并启用全流程MXFP4之后，效率数据如下：训练每一步的吞吐量提升了20%。扣除为达到相同效果而多消耗的8-9%的token后，端到端的综合加速仍有9-10%。

考虑到这是将精度从8比特直接砍半到4比特，这样的收敛质量和加速幅度已经相当可观。

论文中的图表也清晰展示了对比：在C4数据集上，采用MXFP4加确定性Hadamard旋转的方案，其验证困惑度曲线与FP8基线非常接近；而未经验定化处理的全流程MXFP4则收敛更慢，稳定性也更差。在训练后期的局部放大图中，确定性Hadamard方案与FP8基线保持了高度一致性。

当然，作者在论文中也明确强调了一项重要限制：这套FP4训练方案在MLPerf C4数据集和Llama 3.1-8B模型上的效果已得到验证，但不能直接假设它能无缝迁移到所有模型、数据集和训练方法。FP4训练的行为可能是高度依赖具体设置的，稳定的策略需要根据实际场景重新验证和调整。

结语

把这篇文章放到更大的产业脉络里看，至少有三层意义。

第一层，它回答了一个根本性的“为什么”。过去的FP4训练研究大多聚焦于“怎么让它不崩”，而这篇文章第一次给出了清晰的因果诊断：崩溃源于Wgrad路径上的结构性微缩放误差，而非随机性不足。这个诊断本身具有很高的方法论价值，它告诉后续的研究者：在低精度训练中遇到不稳定性时，应该优先排查结构性的误差源，而不是盲目地去增加随机性。

第二层，它把FP4从“推理专属”推向了“训练可用”。此前的行业共识是，FP4只适合用于推理时的模型量化，训练至少要用FP8。NVIDIA在Blackwell上主推FP4推理而非训练，也反映了这一判断。这篇文章在原生FP4硬件上跑通了全流程预训练，意味着MI355X和Blackwell上那些为推理准备的FP4算力，理论上也可以被用于训练。如果FP4训练在更大模型和更多场景上被验证可行，那就等同于现有硬件的可用训练算力直接翻倍。

第三层，它基于开放标准。MXFP4是OCP Microscaling格式标准的一部分，其背后有AMD、NVIDIA、Intel、Meta、Microsoft、Arm、Qualcomm七家公司的联合支持。基于开放标准意味着这套方法在不同厂商的硬件上都具有可移植性，不会被锁定在单一的生态里。

从FP16到FP8，DeepSeek-V3已经证明精度减半可以大幅降低训练成本。如今，从FP8到FP4，这篇论文迈出了关键的第一步。精度每砍下一刀，整个大模型训练的经济性天平，都在发生微妙的、却是根本性的转变。

来源:https://www.jiqizhixin.com/api/article_library/articles/2026-05-27-4

上一篇：华富基金重仓凌云光浮盈过万股价单日上涨超3%

下一篇：华夏基金持股和而泰浮亏336万元股价下跌3%影响几何