摩尔线程S5000智源FlagOS训练验证精度领先国际主流1.65%

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

摩尔线程S5000智源FlagOS训练验证精度领先国际主流1.65%

热心网友时间：2026-05-27

转载

近日，AI算力领域迎来一项重要进展。北京智源人工智能研究院（简称智源研究院）正式发布了基于统一FlagOS技术栈的“全要素”AI训练验证成果。该验证覆盖了六款主流AI芯片、三大模型架构，并在同构与异构千卡集群上完成了端到端训练测试。这标志着国内在多元算力融合与大模型训练平台标准化方面，取得了实质性突破。

作为本次验证的核心参与方，摩尔线程的表现尤为突出。其旗舰级AI训推一体全功能GPU智算卡MTT S5000，已完整适配FlagOS全栈训练软件，包括FlagScale系统调度框架、Megatron-LM分布式训练框架以及Transformer Engine加速库等关键组件。在实际验证中，基于MTT S5000的集群成功完成了对Qwen3-0.6B语言模型的1T Tokens数据从头训练，实现了连续6天以上、超过14000步的无中断稳定运行。

训练结果表现如何？所得模型的Loss收敛曲线与行业基准高度一致，平均相对误差控制在0.82%以内。在标准下游任务评测中，其表现甚至较基线提升了1.65个百分点。这组数据不仅验证了国产全功能GPU在大模型长周期训练中的稳定性，更在模型效果层面展现了竞争力。

长周期高负载验证：4机32卡无中断，6+天稳定训练

本次FlagOS全要素验证的核心目标，是检验在统一软件栈下，多元化AI算力能否胜任端到端的大模型训练任务。摩尔线程与智源团队协同完成了底层适配与系统调优，并于春节前启动了全流程训练验证。

验证采用严苛的实战场景：以4机32卡集群配置，对Qwen3-0.6B模型进行持续训练。在超过6天的马拉松式运行中，系统稳定处理了1T Tokens数据，完成超14000步迭代，全程未发生任何软硬件中断。这一结果直接回应了业界对国产算力在长周期、高负载场景下可靠性的核心关切，证明基于MTT S5000构建的训练集群已具备支撑企业级大模型预训练的可靠能力。

精度稳定对齐：Loss曲线高度一致，评测效果优于基线

大模型训练不仅追求规模，更看重最终效果。训练的稳定性、模型收敛质量以及下游任务表现，才是衡量算力平台的关键指标。其中，训练精度是基础，下游任务评测则是检验训练成效的核心标准。

在FlagOS统一软件栈调度下，采用对齐的数据集和超参数，基于MTT S5000集群的训练Loss曲线与国际主流基线几乎重合，平均相对误差仅为0.82%。尤为值得一提的是，在标准下游任务评测中，训练所得模型的表现较行业标杆基线高出1.65个百分点。

与基线评测偏差的计算方法：

Qwen3-0.6B评测结果（正数为优于基线）：

这意味着，开发者基于公开模型架构与数据集，在摩尔线程算力平台上不仅能获得与国际主流平台相当的训练精度，甚至有机会在部分评测指标上实现反超。这为国产AI芯片的应用前景注入了更强信心。

事实上，MTT S5000的训练能力已在更大规模场景中得到验证。今年1月，在摩尔线程千卡智算集群支持下，FlagOS成功完成了智源自研具身大脑模型RoboBrain 2.5的全流程训练与优化。结果显示，其Loss曲线与基线高度一致，最终相对误差小于0.62%；在从64卡到1024卡的规模区间内，多组实验均实现了超过90%的线性扩展效率。这表明MTT S5000的训练能力正向更大规模、更复杂的模型场景持续延伸。

RoboBrain2.5模型评测效果：

端到端训练Loss曲线：

软硬协同创新：构建高性能大模型训练底座

优异的训练表现离不开底层软硬件的深度协同与持续创新。摩尔线程此次验证成绩的背后，是其芯片架构、通信能力、计算单元协同及低精度训练支持等方面长期技术积累的体现。

架构级精度优化：深度打磨矩阵乘法（GEMM）算子

矩阵乘法（GEMM）是大模型训练的核心算子，其数值精度直接影响Loss收敛与模型效果。针对这一关键环节，摩尔线程在MTT S5000架构设计阶段，就对浮点运算的舍入模式、累加路径等计算链路进行了精细化优化。这种从源头开始的打磨，确保了芯片在长时间高强度训练中保持稳定的数值输出，为模型精度对齐与提升奠定了硬件基础。

ACE异步通信引擎：实现计算与通信高效并行

在大规模分布式训练中，卡间通信常成为制约扩展效率的瓶颈。MTT S5000创新性地内置了独立的ACE异步通信引擎。该硬件单元可在不占用核心计算资源的情况下，高效处理跨卡梯度同步等集合通信操作。当Tensor Core全力进行矩阵运算时，ACE已在后台完成通信任务，实现了计算与通信的深度重叠。这也是摩尔线程在千卡规模训练中保持超过90%线性扩展效率的关键技术之一。

多计算单元协同：Tensor Core与Vector Core高效配合

为应对大模型训练多样化的计算负载，MTT S5000对Tensor Core和Vector Core进行了针对性配置与协同优化。实际运行中，密集矩阵运算由Tensor Core承担，而像LayerNorm、Softmax这类内存或带宽密集型算子，则由Vector Core高效执行。基于这一硬件特性，摩尔线程与智源团队对FlagOS软件栈进行了深度调优，最终在FlashAttention等关键算子上实现了超过90%的计算资源利用率，充分释放了平台潜力。

原生FP8支持：协同MT-Megatron稳定高效释放Grouped GEMM潜力

随着模型规模向万亿参数迈进，低精度训练已成为提升效率的必然选择。MTT S5000在硬件层面原生支持FP8数据格式。通过对底层算子库的优化，其FP8 Grouped GEMM在实际场景中的性能表现超过700 TFLOPs。同时，通过对MT-Megatron分布式训练框架的深度适配与优化，进一步保障了FP8训练在主流大模型上的稳定性与可收敛性，能够为包括DeepSeek-V3在内的前沿大模型训练提供有效支撑。

从训练稳定性、收敛精度到下游任务效果，摩尔线程基于MTT S5000交出的这份答卷清晰表明：在统一技术栈下，国产全功能GPU不仅验证了大模型端到端训练的可用性，更展现出在实际训练效果上持续追赶并局部超越的潜力。

北京智源人工智能研究院副院长兼总工程师林咏华评价道：“长期以来，‘对齐CUDA’更多是行业在缺乏替代方案下的一种‘不得已’。但如果能获得比CUDA更优的实际训练效果，才是产业界共同的期待，才能真正激励系统架构的创新百花齐放。摩尔线程在训练实测中超过了国际主流产品的表现，证明了这种期待已经开始照进现实。”

展望未来，摩尔线程表示将继续深化与智源研究院及生态伙伴的合作，以自主创新的全功能GPU算力底座，推动多元算力从“可用”走向“好用”，为中国大模型的研发与创新，提供一个开放、高效且可规模化复制的“国产算力训练范式”。

来源:https://m.elecfans.com/article/7766616.html

上一篇：婚礼邀请函动态视频风格推荐可灵AI制作指南

下一篇：玉树智能以场景驱动与算力赋能加速福田具身智能应用落地