HBM:AI时代的超级内存,如何让显卡算力翻倍?
HBM(高带宽存储器)是一种通过3D堆叠技术实现超大数据吞吐量的新型DRAM芯片,广泛应用于高性能GPU、AI训练卡和超级计算机。它像给芯片修了一条“八车道高速公路”,缓解了传统内存无法满足海量数据并行计算的瓶颈。
一句话解释
HBM(High Bandwidth Memory)是一种通过垂直堆叠多层DRAM芯片,并用硅通孔(TSV)连接实现超高数据吞吐量的新型内存技术。它就像把普通内存的“平房”改造成“摩天大楼”,在同样脚底下塞进更多数据通道。
为什么会被关注
大模型训练需要同时喂给GPU海量数据,传统GDDR显存的速度和容量已经跟不上算力增长。HBM能提供10倍于GDDR6的带宽(HBM3e可达1.2TB/s),直接决定了英伟达H100、AMD MI300X等AI芯片的实际训练速度。
三星、SK海力士、美光三大原厂激烈竞争HBM产能,2024年HBM3e订单排到2026年。苹果M2 Ultra也通过UltraFusion封装集成HBM,推动个人AI工作站发展。
核心逻辑
HBM的核心思路是“堆叠+宽接口”:将8-12层DRAM晶圆垂直堆叠,每层通过上千个TSV微孔连接,内部总线宽度达1024位(GDDR6仅32位)。宽总线让每次传输的数据量巨大,即使频率不高,总带宽也远超传统方案。
HBM必须紧贴计算芯片放置(通过硅中介层集成),最短路径减少了延迟。但它制造良率低、封装成本高,目前主要用于顶级计算卡而非普通显卡。功耗方面,同等带宽下HBM比GDDR6节省约40%能源。
常见场景
场景1:AI训练服务器。NVIDIA H100/H200 B200均搭载HBM3/e显存,单卡带宽3.35TB/s,可以同时加载千亿参数模型的权重和梯度。
场景2:超级计算。Fugaku(富岳)超算使用HBM2,AMD MI250X凭借HBM2e在TOP500中占据多席。HBM是突破CPU/GPU内存带宽墙的唯一成熟方案。
场景3:高端封装集成。苹果M2 Ultra通过UltraFusion将两颗M2 Max互连,内部使用HBM作为统一内存池,让个人电脑也能运行70亿参数大模型。
容易混淆的点
混淆点1:HBM≠显存。HBM是一种DRAM颗粒类型,而显存指显卡上所有内存的统称。NVIDIA用了GDDR6X或HBM3取决于卡型(RTX 4090用GDDR6X,H100用HBM3)。
混淆点2:HBM≠堆叠flash。HBM是易失性内存(掉电丢失),和3D NAND闪存(非易失)工艺完全不同。只是都用了堆叠概念。
混淆点3:HBM带宽大≠速度快。带宽是吞吐能力,延时(Latency)HBM比GDDR6略高。因为宽总线内部寻址复杂,但对AI矩阵运算这种大批量数据传输场景,带宽比延时更重要。
本文内容用于 AI 热词解释和概念整理,仅供学习和理解参考。若涉及表述偏差或内容修正,欢迎联系站点进行更新。
相关热词CUDA是NVIDIA推出的并行计算平台和编程模型,它允许开发者使用C++等语言直接利用GPU的数千个核心进行通用计算,极大加速了科学计算、深度学习等数据密集型任务。

