DeepSeek FlashMLA开源推理加速核心技术
上周五,DeepSeek在推特上宣布本周为OpenSourceWeek(开源周),计划连续五天陆续开源五个软件库。不出所料,周一上午9点,正值国内开工、硅谷临近下班的时间节点,首个项目如期发布——针对Hopper GPU的高效MLA解码内核:FlashMLA。正如外界预期,DeepSeek率先从推理
上周五,DeepSeek在推特上宣布本周为OpenSourceWeek(开源周),计划连续五天陆续开源五个软件库。
不出所料,周一上午9点,正值国内开工、硅谷临近下班的时间节点,首个项目如期发布——针对Hopper GPU的高效MLA解码内核:FlashMLA。正如外界预期,DeepSeek率先从推理加速方向切入,展示出在AI部署优化方面的技术实力。

项目上线不到45分钟,Star数已突破400(截图时仍在快速攀升)。这一速度在开源社区中足以证明开发者对DeepSeek推理加速技术的期待与认可。
需要说明的是,MLA结构本身是DeepSeek大模型的核心技术创新之一。其设计思路是通过减少推理过程中的KV Cache,让更少的硬件资源支持更长的上下文窗口,从而显著降低推理成本。此次DeepSeek直接将改进版MLA解码内核进行开源,诚意十足,也为行业提供了可复用的高性能解决方案。
那么,FlashMLA究竟是什么?
简单来说,FlashMLA是专为Hopper GPU量身打造的高效MLA解码内核,针对可变长度序列的推理服务做了深度优化。目前公开的功能包括:
- 支持BF16精度
- 实现块大小为64的分页KVCache
在性能方面,基于H800 SXM5 GPU实测,内存带宽可达3000 GB/s的上限,算力达到580 TFLOPS。这样的吞吐能力在当前的推理场景中极具竞争力,能够有效加速大模型在线服务。
部署门槛并不高
要运行FlashMLA,仅需满足以下硬件与软件环境:
- 拥有Hopper架构的GPU
- CUDA 12.3及以上版本
- PyTorch 2.0及以上版本
安装过程十分简洁,只需执行一行命令:
python setup.py install
运行基准测试即可验证性能表现:
python tests/test_flash_mla.py
实测结果表明,在CUDA 12.6环境下、H800 SXM5上,能够稳定复现最高3000 GB/s的内存带宽以及580 TFLOPS的计算峰值。
用法也很直接
代码层的调用方式如下:
from flash_mla import get_mla_metadata, flash_mla_with_kvcache
tile_scheduler_metadata, num_splits = get_mla_metadata(cache_seqlens, s_q * h_q // h_kv, h_kv)
for i in range(num_layers):
...
o_i, lse_i = flash_mla_with_kvcache(
q_i, kvcache_i, block_table, cache_seqlens, dv,
tile_scheduler_metadata, num_splits, causal=True,
)
...项目发布后,社区反响极为热烈,有网友甚至打趣道:“听说第五天会是AGI。”这虽是一种夸张的表达,但也折射出外界对DeepSeek开源周后续项目的高度期待与关注。
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:DeepSeek FlashMLA开源推理加速核心技术要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点在招聘这个行业中,数据录入的繁琐程度相信大家都有切身体会。每天需要从各类网页、社交平台、招聘站点中搜寻候选人信息,再手动一条条录入系统,既耗时费力又容易出错。今天要介绍的这款Kwal Chrome插件,正是为了彻底解决这一痛点而设计的。什么是 Kwal Chrome 扩展程序 插件?该插件的定位十分
网红经济正在进化——Twinning AI带来的玩法是:粉丝可以直接跟你的人工智能分身聊天,而你,每次互动都能收到真金白银。它集成了专业的声音克隆、文本和语音消息,以及数据分析能力,让粉丝互动变得既有趣又能变&现。 什么是Twinning AI? 简单来说,Twinning AI允许网红创建一个属于
在跨境电商和全球业务快速发展的今天,发票与财务管理工具的重要性日益凸显。AI技术的加入,让这些原本繁琐的流程实现了质的飞跃。Invoicemint 正是这样一款专注全球企业的智能发票与财务管理软件——它不只是一个简单的发票生成器,而是一套覆盖从开票、对账到税务合规、催款的全链路解决方案。 什么是In
想象一下,你随时都能找到一个倾听者——不带任何偏见,不会感到疲惫,而且完全匿名。这听起来像科幻小说里的情节,但现在已经成为现实。MyWhy 就是这样一款 AI 心理治疗应用,它将专业的情感支持装进你的口袋,让心理健康服务不再是奢侈品,而是像打开手机一样触手可及。什么是MyWhy?简单来说,MyWhy
- 日榜
- 周榜
- 月榜
热点快看
