DeepSeek开源MoE训练推理EP通信库DeepEP

AI热点日报时间：2026-07-01

热点解读

昨天我们还在深入探讨DeepSeek的FlashMLA技术，仅仅一天之后，他们又发布了另一项重大成果——DeepEP，这是一款专为MoE（混合专家）模型训练与推理量身打造的高效专家并行通信库。如果说FlashMLA聚焦于解码内核的加速优化，那么DeepEP则直接回应了MoE架构在高效通信与并行处理方

在MoE模型中，不同“专家”之间需要频繁进行数据交换，如何在众多GPU之间实现高速、稳定的数据传输成为关键所在。同时，专家并行场景下的负载不均衡问题由来已久，容易造成算力分配不均，进而拖累整体性能。DeepEP正是为了攻克这些长期存在的痛点而生。

我们一起看看它究竟带来了哪些突破：

高度优化的全对全通信机制
同时支持NVLink与RDMA的节点内及跨节点通信能力
为训练与推理预填充阶段提供高吞吐量计算核心
为推理解码阶段提供极低延迟的计算核心
原生支持FP8数据分发格式
灵活调控GPU资源，实现计算与通信的高效重叠

将这些特性归纳起来，核心无非三件事：高效通信大幅削减了数据传输瓶颈，计算核心的精心优化显著提升了处理速度，而灵活的资源调度则让计算与通信不再相互等待。从架构层面审视，MLA与MoE本就是DeepSeek的两张王牌，昨天亮出第一张，今天再亮第二张，确实无愧于“Open”之名。

有评论指出，DeepSeek针对MoE模型所做的优化达到了令人惊叹的水平，尤其是能够充分利用NVLink与RDMA这类尖端硬件技术，同时支持FP8精度，这几乎是一项具有突破意义的成就。还有人直言，NVLink与RDMA的支持对于大规模MoE模型堪称革命性突破，DeepSeek再次推动了AI基础设施的可能边界。

此前外界对DeepSeek-R1存在一些质疑，例如有人认为它仅靠模型蒸馏获取性能，而并非真正的技术创新；还有人怀疑它低报了训练过程中实际使用的GPU数量。通过开源周的这一系列发布，至少从侧面有力证明：DeepSeek确实是通过扎实的技术创新实现了真实的训练效率提升与成本降低。

DeepEP 是什么？

简单来说，DeepEP是专门为MoE模型和专家并行场景量身定制的通信库。它提供了兼具高吞吐量与低延迟的全对全GPU内核，这些内核本质上是MoE分发与合并操作的具体实现。该库还原生支持低精度运算，包括FP8格式。

为了与DeepSeek-V3论文中提出的group-limited gating算法保持一致，DeepEP还额外提供了一套针对非对称域带宽转发进行优化的内核——例如从NVLink域向RDMA域进行数据转发。这些内核吞吐量极高，适用于训练与推理预填充任务，并且支持SM（流式多处理器）数量动态控制。

对于延迟敏感的推理解码场景，DeepEP包含了一套基于纯RDMA的低延迟内核，核心目标就是尽可能降低延迟。此外，它还引入了一种基于hook的通信-计算重叠方法，关键是不占用任何SM资源。

DeepEP 性能如何？

官方在H800平台上进行了性能测试。常规内核部分，H800的NVLink最大带宽约为160 GB/s，每个H800连接到一个CX7 InfiniBand 400 Gb/s RDMA网卡（约50 GB/s）。测试遵循DeepSeek-V3/R1预训练设置：每批次4096个token，隐藏维度7168，top-4组，top-8专家，FP8分发，BF16合并。低延迟内核部分，测试采用典型生产设置：每批次128个token，隐藏维度7168，top-8专家，FP8分发，BF16合并。

还有几个值得关注的细节：

为了追求极致性能，DeepSeek发现并启用了一条未记录在文档中的PTX指令：ld.global.nc.L1::no_allocate.L2::256B。该指令会引发一个未定义行为——使用非一致性只读修饰符“.nc”访问易变的GPU内存。但在Hopper架构上，通过“.L1::no_allocate”已测试确保正确性，且性能提升极为显著。如果你在其他平台上遇到问题，可以在setup.py中添加DISABLE_AGGRESSIVE_PTX_INSTRS=1来禁用，或提交GitHub issue寻求帮助。
为了在你的集群上获得更佳性能，建议运行所有测试并使用最佳的自动调优配置。官方提供的默认配置是针对其内部集群优化得出的。

更多技术细节可前往GitHub代码仓库查阅。最后再强调一次：Real OPENAI has born!

那么，你猜第三天会发布什么？24小时后答案便会揭晓。

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：DeepSeek开源MoE训练推理EP通信库DeepEP要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://www.53ai.com/news/OpenSourceLLM/2025022649075.html

ai 人工智能

上一篇：人工智能应用处于数字化转型前沿推动企业运营创新改进

下一篇：RPA机器人流程自动化与数字化转型协同

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

延伸阅读

iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态真我828真粉节揭晓：10000mAh超大电池手机即将亮相？苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套刘志强：京东方坚持开放合作，拒绝低质低价竞争 Redmi K90系列全系标配5000万长焦与3D超声波指纹，配置再升级 vivo X300系列曝光：天玑9500+2亿像素主摄，长焦微距实力升级

日榜
周榜
月榜

01 / 08-26iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 02 / 08-26iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 03 / 08-26真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 04 / 08-26苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别 05 / 08-27对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套

01 / 本周KwalAI Chrome插件专业高效实用AI智能浏览器在线助手工具 02 / 本周Twinning AI创建AI克隆与粉丝聊天获利 03 / 本周Invoicemint人工智能发票与财务管理软件 04 / 本周MyWhy实时AI语音心理治疗师 05 / 本周新一代专业EHVA对话式人工智能电话呼叫平台

01 / 本月KwalAI Chrome插件专业高效实用AI智能浏览器在线助手工具 02 / 本月Twinning AI创建AI克隆与粉丝聊天获利 03 / 本月Invoicemint人工智能发票与财务管理软件 04 / 本月MyWhy实时AI语音心理治疗师 05 / 本月新一代专业EHVA对话式人工智能电话呼叫平台

热点快看

07-01 21:45KwalAI Chrome插件专业高效实用AI智能浏览器在线助手工具 07-01 21:45Twinning AI创建AI克隆与粉丝聊天获利 07-01 21:45Invoicemint人工智能发票与财务管理软件 07-01 21:45MyWhy实时AI语音心理治疗师 07-01 21:44新一代专业EHVA对话式人工智能电话呼叫平台

热点追踪

持续追踪iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 持续追踪iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 持续追踪真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 持续追踪苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别