当前位置: 首页
手机教程
通俗讲解DeepSeek开源:DeepGEMM,究竟是个啥?(第三弹)

通俗讲解DeepSeek开源:DeepGEMM,究竟是个啥?(第三弹)

热心网友 时间:2025-04-24
转载

deepseek开源周,继deepep之后,第三弹deepgemm震撼来袭。今天我们来探讨一下:

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

吃瓜:DeepGMEE是干什么用的?技术:DeepGMEE是如何实现的?普通人有什么用:对写提示词有什么启示?

【1】DeepGMEE是干什么用的?

通俗讲解DeepSeek开源:DeepGEMM,究竟是个啥?(第三弹)

DeepGMEE,全称General Matrix Multiplication,是一个FP8通用矩阵乘法库(library)。

画外音,FP8:8-bit Floating Point,8位浮点格式。

【2】关于FP8通用矩阵乘法

有人可能会问,矩阵乘法的优化值得这么吹吗?

矩阵乘法是现代AI计算的基石:

矩阵是数据表示的核心工具:神经网络中的权重、特征、参数传递等都使用矩阵表示;矩阵乘法占大模型中90%的计算量:Transformer基操QKV运算、卷积计算、分层全连接计算等;硬件优化的核心目标就是矩阵乘法计算。

传统AI的矩阵乘法通常使用NVIDIA开源的CUDA C++模板库CUTLASS,采用FP16/FP32格式,但存在一些不足:

占显存资源:FP32占显存是FP8的4倍;资源利用率低:强制要求矩阵为2次幂尺寸(例如:128*128),容易出现显存碎片;不支持MOE模型的分组矩阵计算;部署复杂度高:需要编译,需要配置。

为什么之前不直接采用FP8呢?因为FP8虽然占用资源少,资源利用率高,但会带来精度损失。

高精度乘法:1.2 * 3.4 = 4.08

如果直接降低精度,用整数表示浮点数,变为1 * 3 = 3,精度损失是无法接受的。

我们可以对浮点数进行整数化编码处理:

步骤一:1.2用(12, 1)表示,其中1是小数位数;步骤二:3.4用(34, 1)表示;步骤三:1.2 3.4 = (12, 1) (34, 1) = (12*34, 1+1) = (408, 2)

如此一来,就没有精度损失了。

矩阵乘法的精度补偿比这个复杂,其核心思路是:使用低精度乘法矩阵快速计算,高精度加法补足。

结论就是:DeepSeek使用FP8就能完成FP16/FP32的计算,降低显存占用+提高显存利用率的同时,仍然能够保持高精度。

【3】DeepGMEE的特点

Git介绍中对DeepGMEE有三个关键形容词:

简洁(clean)高效(efficient)高精度(fine-grained scaling)

为什么说DeepGMEE简洁?

核心代码300行,而CUTLASS数千行;零依赖(除CUDA),无需预编译,无需复杂环境配置;注释清晰,便于学习与二次开发;

画外音:我看了一下,调整数据分块策略,只需要修改10-20行代码。

为什么说DeepGMEE高效?

这是FP8对比FP16/FP32的天然优势,相比CUTLASS:

显存占用下降50%+;MOE推理延时下降60%+;计算密度(TFLOPS)提升了270%+;

为什么说DeepGEMM高精度?

采用FP8矩阵乘法加速计算,BF16累加修正精度的办法,平衡了速度与精度。

除此之外,DeepGEMM还有不少特色:

针对MOE优化,支持MOE分组矩阵乘法;针对硬件加速;动态编译JIT:运行时根据矩阵大小与硬件条件优化;矩阵灵活尺寸对齐(例如:可以支持112*128矩阵);

上面种种,DeepGMEE本次最大的创新,我认为是:FP8优化,JIT优化,以及MOE优化。

【4】DeepGMEE是怎么做到的?

信息密度太大,头疼,有点学不过来了,感兴趣的同学去官网看吧,我Copy一下git的信息:

1. Persistent warp-specialization

2. Hopper TMA features

3. A unified and optimized block scheduler

4. Fully JIT design

5. Unaligned block sizes

6. FFMA SASS interleaving

7. Common detail optimizations

画外音:其实你也不想知道这些how?

【5】了解GEMM对普通人写提示词有什么启示?

没有启示,这东西和提示词没关系。

【6】结尾

对于DeepGEMM,我的思考是:

之前各大玩家都卷硬件,而忽略了软件的优化;僵化思维真的很要命,一直以来都是FP16/FP32,大家也都用CUTLASS,它就一定是最优吗?写代码,搞架构,少即是多:多写这类300行优美的代码,而不要在垃圾公司堆shi山;

先睡了,共勉!

画外音:球球deepseek,明天不要开源新东西了。

补充阅读材料:

《DeepGEMM》

https://www.php.cn/link/e0c082bdcbcf050ff454698580c89289

可参考。

==全文完==

来源:https://www.php.cn/faq/1288384.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
玩机技巧在哪里可以打开

玩机技巧在哪里可以打开

在如今智能手机高度普及的时代,各种丰富的功能和便捷的操作技巧让我们的生活更加便利。而玩机技巧作为挖掘手机更多潜力、提升使用体验的关键,很多人却不知道在哪里打开。下面就来详细介绍一下

时间:2026-04-07 14:54
荣耀MagicVs3如何设置24小时制

荣耀MagicVs3如何设置24小时制

在使用荣耀magicvs3手机时,设置24小时制能让时间显示更加符合我们的日常习惯或特定需求。下面就为大家详细分享一下设置24小时制的具体步骤。首先,打开手机的主屏幕。在主屏幕上找

时间:2026-04-07 14:49
12306积分怎么兑换座位升席

12306积分怎么兑换座位升席

在乘坐火车出行时,若能享受更舒适的座位体验,无疑会让旅程更加惬意。而12306的积分兑换座位升席功能,就为我们提供了这样的机会。那么,如何利用积分兑换座位升席呢?下面就为您详细介绍

时间:2026-04-07 14:43
爱奇艺万能播放器如何设置仅音乐从头继续播放

爱奇艺万能播放器如何设置仅音乐从头继续播放

爱奇艺万能播放器是一款功能较为强大的多媒体播放软件,对于想要仅让音乐从头继续播放的用户来说,有特定的设置方法。首先,打开爱奇艺万能播放器。当播放音乐文件时,进入播放界面。在播放界面

时间:2026-04-07 14:36
如何在WeGame开启网络加速

如何在WeGame开启网络加速

在使用wegame平台时,网络加速功能能为玩家带来更流畅的游戏体验。那么,wegame怎么开启网络加速呢?首先,打开wegame应用程序。进入主界面后,在界面上方的菜单栏中找到“辅

时间:2026-04-07 14:30
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程