当前位置: 首页
AI
摩尔线程S5000与智源FlagOS适配DeepSeek-V4 原生FP8引擎详解

摩尔线程S5000与智源FlagOS适配DeepSeek-V4 原生FP8引擎详解

热心网友 时间:2026-05-18
转载

4月24日,摩尔线程与智源FlagOS社区达成深度技术合作,成功在国产旗舰级AI训推一体全功能GPU MTT S5000上,实现了对新一代大模型DeepSeek-V4-Flash的Day-0极速适配与部署。此次合作不仅完成了全量核心算子的深度优化,更充分释放了国产GPU在支持前沿大模型推理方面的强大潜力。

图片

本次适配的DeepSeek-V4-Flash模型实力非凡。它基于先进的混合专家(MoE)架构打造,总参数量高达2840亿,激活参数量为130亿,并支持百万级别的超长上下文处理。其预训练数据规模超过32万亿token,在极大推理力度模式(Flash-Max)下,性能已逼近其Pro版本。一个关键的技术细节在于,V4模型创新性地采用了“FP4+FP8”混合精度策略,而当前国内多数AI芯片仍以BF16精度支持为主。这恰恰凸显了摩尔线程MTT S5000的核心优势:原生支持FP8数据格式。这一特性为DeepSeek-V4等采用前沿精度设计的大模型,提供了高度匹配、能效更优的国产算力底座。

作为国内率先原生支持FP8精度的全功能GPU,MTT S5000内置了强大的硬件级FP8张量核心加速单元。与传统的BF16或FP16精度相比,FP8将数据位宽直接减半,这不仅显著降低了50%的显存带宽压力,更使理论计算吞吐量实现翻倍提升,在AI推理效率上优势明显。

那么,如何将MTT S5000在FP8计算上的硬件优势,切实转化为DeepSeek-V4模型的实际推理性能呢?FlagOS团队对模型进行了系统的FP8量化。通过深入的技术分析,双方将本次适配攻坚的重点,锁定在决定长上下文效率与极致推理性能的两个关键算子:FP8算子和稀疏注意力(Sparse Attention)算子。围绕这两大核心,团队从“编译优化”与“自动调优”两大方向取得了关键性突破:

方向一:编译器深度优化,充分释放硬件算力

技术团队深度利用了摩尔线程自研的FlagTree编译器能力。通过实施精细化的Shape对齐策略,使FP8和Sparse Attention的计算形状能更高效地匹配摩尔线程张量访存与计算引擎(TME/TCE)的硬件特性。同时,结合启用MUSA_ENABLE_SQMMA特性,进一步加速了tl.dot矩阵计算核心,从编译器底层打通了性能瓶颈。

方向二:自动调优系统,智能探寻最优配置

借助FlagOS-Tune自动调优工具,团队实现了对Optimal Triton内核配置的自动化智能搜索。该系统能够扩展算子的性能搜索空间,基于模型实际运行的动态形状,离线搜索出FP8和Sparse Attention算子的最优内核执行配置,其效果通常超越依赖经验的手工调参。

图片

除了离线优化,FlagOS-Tune还具备在线内核配置搜索能力。开发者只需设置环境变量USE_FLAGTUNE=1,系统在经过短暂预热(warmup)后,便能基于实际推理过程持续搜索并动态应用最佳配置,实现性能的实时优化。实测性能数据显示,经过系列优化后,首token生成时间(TTFT)延迟降低了16.5%,推理时延(ITL)降低了39.7%,而吞吐量(Throughput)则大幅提升了65.7%,优化效果显著。

目前,摩尔线程与FlagOS社区的协作正在向更深层次推进。双方正持续开展对参数量高达1.86万亿的旗舰模型DeepSeek-V4-Pro在MTT S5000平台上的迁移与适配工作。可以预见,凭借其MUSA架构与全功能GPU的全栈技术优势,摩尔线程将持续为蓬勃发展的国产大模型生态,提供更高效、更自主可控的坚实算力支撑。

来源:https://www.51cto.com/article/841635.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
吉利发布首款原生Robotaxi Eva Cab 千里科技AI全栈赋能

吉利发布首款原生Robotaxi Eva Cab 千里科技AI全栈赋能

4月24日,在备受瞩目的第十九届北京国际汽车展览会上,吉利汽车集团正式揭晓了其重磅新品——中国首款原生正向开发的Robotaxi(自动驾驶出租车)原型车Eva Cab。这款车型不仅是前沿概念的展示,更是一款具备完整落地潜力的产品,其核心驱动力源自千里科技提供的全栈式Robotaxi解决方案。该方案深

时间:2026-05-18 11:22
Akamai与NVIDIA合作推动分布式AI推理从内容分发迈向智能分发

Akamai与NVIDIA合作推动分布式AI推理从内容分发迈向智能分发

自2010年在中国设立团队以来,Akamai已深耕本地市场十六年。在服务中国企业出海的漫长征程中,其团队展现出卓越的稳定性与战略专注度。 回顾NVIDIA GTC 2026,其CEO黄仁勋曾预言,AI推理的规模将迅速达到训练负载的数十亿倍。进入2026年,行业共识已然明确:AI大模型竞争的焦点,正从

时间:2026-05-18 11:21
跑车品牌宣布暂停全面电动化转型计划

跑车品牌宣布暂停全面电动化转型计划

莲花集团发布“Focus2030”战略,宣布调整全面电动化路线,将同步发展燃油、混动及纯电车型,直至市场成熟。未来将推出燃油跑车Emira420,并于2028年上市搭载V8混动系统的超跑Type135,战略重心转向追求更高利润率。

时间:2026-05-18 11:21
大语言模型如何实现类人对话与思考的智能原理

大语言模型如何实现类人对话与思考的智能原理

我们每天都在与大语言模型(LLM)对话,一个直观的感受是,它们似乎真的“懂”我们在说什么,尽管偶尔也会“胡言乱语”。观察它们输出的思维链,那种逐步推理的语言痕迹,更让人觉得它们仿佛具备了某种思考能力。 这引出了一个核心问题:LLM的语言和思考能力,究竟是一种怎样的能力?这些能力又是如何通过其底层的实

时间:2026-05-18 11:21
ICML 2026论文解读:TGO标量反馈对齐视觉生成模型

ICML 2026论文解读:TGO标量反馈对齐视觉生成模型

生成模型的偏好对齐,可能正在进入一个新的阶段。 过去几年,大模型在训练后优化(post-training)最主流的方法,是让模型从“成对偏好”中学习。无论是经典的RLHF,还是后来更简洁的DPO,都绕不开同一个前提:反馈必须成对出现。 但在真实世界里,反馈往往不是这样。用户给一个结果打分、系统记录一

时间:2026-05-18 11:21
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程