DeepSeek 模型更新解读 Tile Kernels 与 DeepEP V2 新特性

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

DeepSeek 模型更新解读 Tile Kernels 与 DeepEP V2 新特性

热心网友时间：2026-05-18

转载

DeepSeek近期在GitHub上动作频频，技术开源步伐明显加快。继不久前低调更新Mega MoE和FP4 Indexer后，团队近日又重磅开源了全新的Tile Kernels代码库，并对DeepEP专家并行框架进行了重要版本迭代，发布了性能大幅提升的DeepEP V2。

Tile Kernels：逼近硬件极限的底层优化

新开源的Tile Kernels项目是一套为大语言模型（LLM）操作深度优化的GPU计算核心。它基于TileLang领域特定语言构建，该语言专为在Python环境中表达高性能GPU内核而设计，以其出色的可移植性、敏捷开发特性和自动优化能力闻名。

这套内核的性能表现极为亮眼。根据DeepSeek官方描述：“本项目中的大多数内核在计算强度和内存带宽利用率方面都已逼近硬件理论性能上限。”目前，部分内核已在内部的大模型训练与推理场景中得到实际部署验证。团队同时指出，这些实现尚处于持续优化阶段，代码质量与文档完善工作仍在进行中。

尽管代码库的说明文档较为精简，但其技术细节已清晰揭示了DeepSeek下一代模型架构的底层创新方向。Tile Kernels的核心功能特性主要包括：

门控机制：为混合专家模型（MoE）提供高效的Top-k专家选择与评分功能。
MoE路由：实现Token到专家的精准映射，支持融合的扩展/归约操作及权重归一化处理。
量化支持：全面支持per-token、per-block、per-channel等多种粒度的FP8/FP4/E5M6量化转换，并能与SwiGLU激活函数进行算子融合。
转置操作：高效的批量矩阵转置运算内核。
Engram内核：集成了RMSNorm、前向/反向传播以及权重梯度归约的融合门控计算单元。
Manifold HyperConnection：包含Sinkhorn归一化及混合拆分与应用功能的超连接内核。
模型层封装：提供高层的torch.autograd.Function封装，将底层内核组合为可训练的网络层（如engram gate、mHC pipeline等）。

DeepEP V2：更快的专家并行，支持范围更广

在发布Tile Kernels的同日，DeepSeek同步推出了DeepEP框架的V2版本。此次重大更新显著提升了专家并行（Expert Parallelism）的执行效率，并扩展了对Engram、流水线并行以及上下文并行等训练策略的支持。

面对硬件、网络技术与模型架构的快速演进，DeepEP V1版本逐渐暴露出一些历史遗留的性能瓶颈。因此，V2版本对专家并行模块进行了彻底的重构与优化。相比前代，V2仅需消耗几分之一的流式多处理器资源，即可实现极致的性能输出，同时显著提升了单机与跨机扩展的规模上限。

此外，本次更新还引入了一系列实验性的“0 SM”优化方案，包括0 SM Engram、0 SM流水线并行以及0 SM上下文并行的All-gather算子。值得注意的是，其后端通信库已从NVSHMEM切换为更加轻量高效的NCCL Gin后端。

DeepEP V2版本的核心新特性与改进包括：

全时即时编译：提供全程JIT编译支持，优化运行时性能。
NCCL Gin后端：采用仅包含头文件的极致轻量化设计，可复用现有NCCL通信器，降低部署复杂度。
统一接口设计：将高吞吐量与低延迟API整合为单一接口，并采用了全新的GEMM内存布局。
更大规模支持：专家并行扩展能力最高可支持至EP2048级别。
分析化计算：引入分析化的SM和QP资源计数计算，无需再进行耗时的自动调优过程。
多模式兼容：持续支持混合模式与直接模式两种运行方式。
资源利用优化：针对类似V3的旧版训练任务，SM占用从24个大幅降低至4-6个，同时保持同等甚至更优的训练性能。
实验性功能：新增支持0 SM Engram（配合RDMA）、0 SM PP（配合RDMA）以及0 SM CP（配合Copy Engine）等前沿优化技术。

性能表现：资源大减，效率反升

团队依据DeepSeek-V3模型的典型配置对新版本进行了基准测试。测试环境设置为每批次8K token、7168隐层维度、Top-8专家选择、FP8分发精度以及BF16混合精度计算。

测试结果展示的是逻辑带宽性能。例如在EP 8 x 2的配置下，90 GB/s的带宽数据已包含了本地显卡间的通信流量。与V1版本相比，V2实现了高达1.3倍的峰值性能提升，同时节省了多达4倍的SM计算资源占用。

DeepSeek这一系列密集且高质量的技术更新，充分展现了其在AI基础设施与大模型训练框架领域的深厚技术积累与持续创新能力。从逼近硬件理论极限的底层计算内核，到大幅优化资源利用率的分布式并行方案，每一步扎实的进展都为其下一代大模型的训练效率与最终性能奠定了坚实的技术基础。业界正密切关注，这些底层技术的重大突破，将如何推动其下一代模型“DeepSeek-V4”的正式发布与性能飞跃。

来源:https://www.163.com/dy/article/KR7JDGRF0511AQHO.html

上一篇：腾讯混元大模型重构完成 Hy3预览版正式上线

下一篇：马斯克与扎克伯格同款床垫为何售价四万元