当前位置: 首页
AI
DeepSeek 模型更新解读 Tile Kernels 与 DeepEP V2 新特性

DeepSeek 模型更新解读 Tile Kernels 与 DeepEP V2 新特性

热心网友 时间:2026-05-18
转载

DeepSeek近期在GitHub上动作频频,技术开源步伐明显加快。继不久前低调更新Mega MoE和FP4 Indexer后,团队近日又重磅开源了全新的Tile Kernels代码库,并对DeepEP专家并行框架进行了重要版本迭代,发布了性能大幅提升的DeepEP V2。

Tile Kernels:逼近硬件极限的底层优化

新开源的Tile Kernels项目是一套为大语言模型(LLM)操作深度优化的GPU计算核心。它基于TileLang领域特定语言构建,该语言专为在Python环境中表达高性能GPU内核而设计,以其出色的可移植性、敏捷开发特性和自动优化能力闻名。

这套内核的性能表现极为亮眼。根据DeepSeek官方描述:“本项目中的大多数内核在计算强度和内存带宽利用率方面都已逼近硬件理论性能上限。”目前,部分内核已在内部的大模型训练与推理场景中得到实际部署验证。团队同时指出,这些实现尚处于持续优化阶段,代码质量与文档完善工作仍在进行中。

尽管代码库的说明文档较为精简,但其技术细节已清晰揭示了DeepSeek下一代模型架构的底层创新方向。Tile Kernels的核心功能特性主要包括:

  • 门控机制:为混合专家模型(MoE)提供高效的Top-k专家选择与评分功能。
  • MoE路由:实现Token到专家的精准映射,支持融合的扩展/归约操作及权重归一化处理。
  • 量化支持:全面支持per-token、per-block、per-channel等多种粒度的FP8/FP4/E5M6量化转换,并能与SwiGLU激活函数进行算子融合。
  • 转置操作:高效的批量矩阵转置运算内核。
  • Engram内核:集成了RMSNorm、前向/反向传播以及权重梯度归约的融合门控计算单元。
  • Manifold HyperConnection:包含Sinkhorn归一化及混合拆分与应用功能的超连接内核。
  • 模型层封装:提供高层的torch.autograd.Function封装,将底层内核组合为可训练的网络层(如engram gate、mHC pipeline等)。

DeepEP V2:更快的专家并行,支持范围更广

在发布Tile Kernels的同日,DeepSeek同步推出了DeepEP框架的V2版本。此次重大更新显著提升了专家并行(Expert Parallelism)的执行效率,并扩展了对Engram、流水线并行以及上下文并行等训练策略的支持。

面对硬件、网络技术与模型架构的快速演进,DeepEP V1版本逐渐暴露出一些历史遗留的性能瓶颈。因此,V2版本对专家并行模块进行了彻底的重构与优化。相比前代,V2仅需消耗几分之一的流式多处理器资源,即可实现极致的性能输出,同时显著提升了单机与跨机扩展的规模上限。

此外,本次更新还引入了一系列实验性的“0 SM”优化方案,包括0 SM Engram、0 SM流水线并行以及0 SM上下文并行的All-gather算子。值得注意的是,其后端通信库已从NVSHMEM切换为更加轻量高效的NCCL Gin后端。

DeepEP V2版本的核心新特性与改进包括:

  • 全时即时编译:提供全程JIT编译支持,优化运行时性能。
  • NCCL Gin后端:采用仅包含头文件的极致轻量化设计,可复用现有NCCL通信器,降低部署复杂度。
  • 统一接口设计:将高吞吐量与低延迟API整合为单一接口,并采用了全新的GEMM内存布局。
  • 更大规模支持:专家并行扩展能力最高可支持至EP2048级别。
  • 分析化计算:引入分析化的SM和QP资源计数计算,无需再进行耗时的自动调优过程。
  • 多模式兼容:持续支持混合模式与直接模式两种运行方式。
  • 资源利用优化:针对类似V3的旧版训练任务,SM占用从24个大幅降低至4-6个,同时保持同等甚至更优的训练性能。
  • 实验性功能:新增支持0 SM Engram(配合RDMA)、0 SM PP(配合RDMA)以及0 SM CP(配合Copy Engine)等前沿优化技术。

性能表现:资源大减,效率反升

团队依据DeepSeek-V3模型的典型配置对新版本进行了基准测试。测试环境设置为每批次8K token、7168隐层维度、Top-8专家选择、FP8分发精度以及BF16混合精度计算。

测试结果展示的是逻辑带宽性能。例如在EP 8 x 2的配置下,90 GB/s的带宽数据已包含了本地显卡间的通信流量。与V1版本相比,V2实现了高达1.3倍的峰值性能提升,同时节省了多达4倍的SM计算资源占用。

DeepSeek这一系列密集且高质量的技术更新,充分展现了其在AI基础设施与大模型训练框架领域的深厚技术积累与持续创新能力。从逼近硬件理论极限的底层计算内核,到大幅优化资源利用率的分布式并行方案,每一步扎实的进展都为其下一代大模型的训练效率与最终性能奠定了坚实的技术基础。业界正密切关注,这些底层技术的重大突破,将如何推动其下一代模型“DeepSeek-V4”的正式发布与性能飞跃。

来源:https://www.163.com/dy/article/KR7JDGRF0511AQHO.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
通用世界模型问世机器人将具备自主进化与认知能力

通用世界模型问世机器人将具备自主进化与认知能力

33天后,你家或许就要迎来一位不知疲倦的硅基新成员了。 它将面对的是日复一日的家庭琐事:随处散落的衣物、孩子扔在地上的玩具、桌边摇摇欲坠的杯子,或是被猫咪“重新布置”过的客厅……这些看似永远做不完的家务,正是家庭服务机器人需要攻克的核心场景。关键在于,它能24小时在线工作,并且通过持续学习,越干越明

时间:2026-05-18 16:44
腾讯混元大模型正式上线姚顺雨团队主导研发

腾讯混元大模型正式上线姚顺雨团队主导研发

腾讯混元的新一代模型,Hy3 preview,刚刚揭开面纱。 这不仅是混元团队在架构与基础设施层面重新出发后的首个版本,更因其“实用性”的明确标签而备受关注。首批发布的模型尺寸相对较小,目标直指落地应用。同样引人注目的是,这也是AI专家姚顺雨归国加盟腾讯后交出的首份重要答卷,其背后贯彻的正是他所倡导

时间:2026-05-18 16:44
月之暗面Kimi浏览器插件安装与使用指南

月之暗面Kimi浏览器插件安装与使用指南

月之暗面推出KimiWebBridge浏览器扩展,使本地AI助手能直接操作已登录的浏览器。该工具复用用户会话状态,可自动执行网页导航、表单填写及数据抓取等任务,所有处理均在本地完成以保障隐私。它支持与主流AI代理框架集成,并能将常用流程编译为命令行工具以提升效率。

时间:2026-05-18 16:44
OpenClaw养虾守护进程安装与使用指南

OpenClaw养虾守护进程安装与使用指南

要让你的OpenClaw智能体实现7x24小时稳定在线与可靠运行,后台守护进程是至关重要的核心组件。它如同一位全天候值守的智能管家,不仅默默维持着Agent核心服务的生命线,还负责管理所有外部渠道的连接会话,并确保各类定时任务能够被精准、准时地调度与执行。 所有涉及守护进程生命周期管理的操作,都通过

时间:2026-05-18 16:44
PowerShell执行openclaw命令报错解决方法

PowerShell执行openclaw命令报错解决方法

许多开发者在Windows系统中配置开发工具时,都会遇到一个典型的权限问题:在PowerShell终端中输入openclaw指令后,系统提示无法执行相关脚本。 无法加载文件 C: Users xxx AppData Roaming npm openclaw ps1,因为在此系统上禁止运行脚本。 这一

时间:2026-05-18 16:43
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程