大模型需要什么芯片？Transformer发明人最新预测

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

科技数码

大模型需要什么芯片？Transformer发明人最新预测

热心网友时间：2025-09-09

转载

在最近的Hot Chips大会上，谷歌 Gemini 的工程副总裁Noam Shazeer发表了题为“人工智能下一阶段的预测”的演讲。自 2017 年发明 Transformer 模型以来，他已在

在最近的Hot Chips大会上，谷歌 Gemini 的工程副总裁Noam Shazeer发表了题为“人工智能下一阶段的预测”的演讲。自 2017 年发明 Transformer 模型以来，他已在 LLM 领域耕耘十年。正如他的幻灯片所述，LLM 可以利用硬件等各种资源来提升性能和准确性。

在演讲中，Noam Shazeer强调了几个关键点。首先，Noam 认为语言建模是有史以来最好的问题。正因如此，演讲中有一张幻灯片和一部分内容专门讨论了这个概念。一个多星期过去了，看到他对这个话题如此热情，真是令人欣慰。

然后他谈到了“LLM 想要什么”。这几乎让我想起了我们常说的“核心越多越好”。他更关注的是 FLOPS 越高越好。这一点很重要，因为随着我们获得更多参数、更多深度、非线性和信息流，LLM 的规模会随之扩大，但计算量也会随之增加。更多优质的训练数据也有助于创建更好的 LLM。

他还谈到，2015年在32块GPU上进行训练是一件大事，但十年后，规模可能达到数十万块GPU。另一个有趣的趣闻是，他在2018年表示，谷歌打造了用于人工智能的计算舱（compute pods）。这很重要，因为在此之前，谷歌工程师通常要在上千块CPU上运行工作负载，但之后它们会放慢速度去做其他事情，比如爬取网页。拥有专门用于深度学习/人工智能工作负载的大型机器，可以实现巨大的性能提升。

这让我们看到了芯片会议上的一张大幻灯片，大模型对硬件的要求是什么。

这张幻灯片的有趣之处在于，更高的计算能力、内存容量、内存带宽以及更高的网络带宽，对于驱动未来几代人工智能模型都至关重要。或许我是少数接受这种观点的人。在“所有层级”中，不仅包括 DDR5 容量和带宽，还包括 HBM 和片上 SRAM。降低精度有助于更好地利用这四种资源，这在很多情况下也被视为好事。确定性有助于改进编程。

即使过了一段时间再看主题演讲，我仍然认为，演讲的核心思想是：更大、更快的集群将带来大模型（LLM）的提升。这对谷歌和其他一些公司来说可能是件好事。如果你对“感谢超级计算机！”那张幻灯片感到好奇，那是因为加速器、网络和集群规模的增长直接导致了当前的人工智能浪潮比过去在 32 个 GPU 集群上训练的模型更有用。

坦白说，我最大的收获是，一位业内杰出人物认为，更多的计算能力将带来更好的人工智能模型。看到有人对语言建模如此热情，也真是太好了。

值得注意的是，就在六个月前，黄仁勋还谈到到2028年数据中心资本支出将达到1万亿美元甚至更多。在英伟达最近的财报电话会议上，黄仁勋预计未来五年人工智能基础设施支出将达到3万亿至4万亿美元！对于一个本已庞大的市场来说，这无疑是一个惊人的增长率。这是我们一生中难得一见的淘金热。

让我们更深入地了解为什么大模型（LLM）对计算和连接能力如此渴求，以及那些似乎能提供更多、更多、更多选择的选择。新想法层出不穷。

大模型正在推动数据中心的发展

ChatGPT、Claude、Gemini、Llama 和其他 LLM 模型是数据中心资本支出惊人增长的幕后推手。这些模型被称为基础模型，因为它们能够带来最佳效果。年度经常性收入 (ARR) 正在呈指数级增长。OpenAI 的 ARR 在 2025 年初为每年 50 亿美元，到 2025 年中期翻了一番，达到每年 100 亿美元以上。Anthropic 的 ARR 从 2025 年初的每年 10 亿美元增长了 5 倍，到 2025 年中期达到每年 50 亿美元。

Gemini（谷歌）和 Llama（Meta）也在快速发展。它们使用大量参数，上下文窗口大小（模型一次可以“记住”的 token 文本量，这限制了可处理的文档或代码的大小）不断增长，并且 KV 缓存需求也在不断增长（token 一次生成一个；KV 缓存存储并重用先前 token 的键和值向量，而不是为每个新 token 重新计算它们）。深度研究模式要求模型“思考更长时间”以进行改进，并要求其他模型检查初步结果，以获得更彻底的分析和更准确的结果。所有这些都推动了对更多硬件的需求。

尽管复杂性和计算量大幅增加，但每个查询的成本却在下降，这推动了对更多查询的需求。

这些 LLM 模型虽然简单易用，但要充分发挥其潜力却并非易事。快速工程是专家们的新领域，他们能够以最高效的方式利用这些模型获得最佳结果。

最近有一篇文章提到，大型企业超过90%的人工智能实验都失败了。这并不意味着它不起作用。这意味着存在一个学习曲线，有些公司比其他公司更快地掌握了它。竞争优势将转移到快速学习者身上。Salesforce刚刚宣布裁减4000个客服岗位，因为人工智能客服可以胜任他们的工作。其他一些公司表示，人工智能工具将提高生产力，并减少未来大量招聘的需求。

训练 LLM 的硬件要求与推理截然不同。例如，训练过程中需要用到的 GPU 数量要多得多，通常跨越多个数据中心，而“全收集”（all-gather）周期意味着数千个 GPU 处于空闲状态，等待最后一个 GPU 报告结果。

网络对于训练至关重要。推理需要的 GPU 更少，但需要同时处理更多的模型。过去，训练消耗了大部分数据中心资源，但现在 ChatGPT 和其他应用的需求激增，推理工作负载将在未来占据主导地位。未来几年，推理工作负载和训练工作负载的比例可能会达到 80%。

并非所有大模型 (LLM) 都属于前沿领域。许多公司会构建自己的模型，用于特定用途。例如，如果你是像博世这样的公司，拥有多种电器产品和负责处理问题的呼叫中心，你可以基于所有公开和内部文档训练一个模型，这样你的呼叫中心人员就能更快地找到正确答案。既然你可以选择一个规模更小、更便宜、真正了解你需求的模型，为什么还要花钱购买一个精通莎士比亚和中文的前沿领域模型呢？

Sebastian Raschka 的《Build an LLM from Scratch》是一本深入讲解 LLM 细节的好书。你可以在亚马逊上买到。我现在正在努力读这本书，以便更好地理解 LLM 架构如何驱动硬件需求。

我最近听说了一种新型大型语言模型——扩散大模型 (Diffusion LLM)。Mercury Coder 声称其性能（每秒处理tokens数）提高了 5 到 10 倍。我最近遇到的一位风险投资家告诉我，AMD 在 GPU 销售方面的初步成功与此有关，因为这些模型不需要那么多 GPU。因此，AMD 目前在大规模扩展方面的劣势并不成问题。您可以通过谷歌搜索“What is Diffusion LLM and what it matters”（作者：Zheng “Bruce” Li）了解更多信息。

更高的 PetaFlops（PFlop = 每秒 1 千万亿次浮点运算）

这是大多数人最了解的 AI 硬件部分——由 Nvidia GPU 和现在的 AMD GPU 提供的巨大计算能力，以及超大规模厂商制造的定制加速器。

Nvidia 在最近的财报电话会议上披露，其数据中心收入的一半以上来自三家公司——可能是亚马逊 AWS、谷歌云和微软。这三家公司每年购买的 Nvidia GPU 价值超过 100 亿美元。他们有能力构建自己的定制加速器（即使每年花费 5 亿美元左右）。

超大规模企业（和 OpenAI）正在构建自己的定制加速器，原因有二：

他们可以利用利润率低于 Nvidia 的 ASIC 公司来削减成本，并在谈判中获得优势，并且他们了解他们的 LLM 模型和需求，并可以优化他们的硬件。

超大规模计算平台运行着大量为 Pytorch 编写的客户工作负载，而这些工作负载目前仅与 Nvidia 和最近的 AMD GPU 兼容。即使拥有出色的定制加速器，他们也需要为这些工作负载购买 GPU，但他们会受到激励，尽可能地将业务交给 AMD，从而在 GPU 价格上形成竞争。

一些勇敢的初创公司获得了资助，例如 D-Matrix 和 Positron，它们构建了针对本地小型 LLM 等利基市场优化的数据中心 AI 计算。

更大的内存容量和带宽（所有层级）

当您看到 AI 加速器的“芯片照片”时，您总会发现 GPU 芯片至少两侧都带有 HBM（高带宽存储器）。HBM 到 GPU 的连接非常宽，速度也非常快。如果没有 HBM，GPU 就会面临数据匮乏的问题，这就是为什么 HBM 的每位成本比 DDR DRAM 高出约 10 倍的原因。HBM 堪称工程奇迹。它们已经拥有 16 层高的堆栈！而且，HBM 还通过增加连接数量和提高每个连接的数据速率来持续提升带宽。

正如一位内存专家向我指出的那样，加速器上内存的晶体管数量比GPU还要多（看看各自的面积，记住每个HBM最多有16个芯片，所以总的内存硅片面积比逻辑面积要大）。将HBM与GPU集成在硅中介层上，最初推动了台积电的多芯片封装。考虑到HBM已经取得的进展，继续提升容量和带宽似乎有些困难，但这涉及的资金巨大，所以我预计我们会看到进一步的创新。

有趣的是，有传言称 OpenAI 将使用 8-high HBM 进行推理。带宽比容量更重要，而 8-high 的单位容量带宽更高。

由于内存需求巨大——数十亿个权重、不断增长的上下文窗口、不断增长的键值缓存（KV Cache）大小——因此，内存层次结构应运而生，其中最常用的键值（KVs）存储在 HBM 中。其他键值则根据相对需求存储在更远的内存中。这让人想起 CPU 的 L1/L2/L3 缓存。这正是 Nvidia 的 Dynamo 分布式键值缓存管理器所做的，它将键值分配给 HBM、DRAM 或 NVMe。智能分配可以显著提高tokens/美元的价值。

如今，DRAM 连接到 GPU 所连接的 CPU（通常每个 CPU 连接两个 GPU）。CPU DRAM 和 GPU 之间通过 PCIe 的数据传输速率相对较慢。Eliyan 建议将定制 HBM 的背面连接到 LPDDR（比 DDR 功耗更低），以便为加速器中的 DRAM 提供更高的带宽。

最后，最近几个月我听到了“内存设备”（memory appliance）这个词。它的想法是使用比HBM便宜得多的DRAM构建一个大型内存池，并与GPU pod建立高带宽连接。

Enfabrica 最近宣布推出用于 LLM 推理的内存结构系统。该系统以 400/800 Gb/秒的数据传输速率连接到 CPU CXL 接口，每个节点可提供高达 18 TB 的 DDR5 DRAM。

更多网络带宽（所有层级）

人工智能数据中心中有多个网络——纵向扩展（scale up）、横向扩展（scale out），在 Hot Chips 上我听说了 Nvidia 的横向扩展网络。

在“过去”，比如五年前，以太网连接着数据中心的一切。机架上的每个插槽都连接到TOR（机架顶部路由器/交换机），TOR又依次连接到所有其他TOR，然后再连接到更高级别的交换机。

网络创新现在非常猖獗，因为在 GPU 上运行 Frontier LLM 需要在数百或数千个 GPU 上进行非常快速、非常高带宽的传输。

Google 在 Hot Interconnects 大会上展示了训练和网络解决方案的挑战。训练需要数千个加速器协同工作。训练过程在各个加速器之间进行，但所有加速器需要定期共享结果以同步权重。最后一个响应的加速器会保持所有其他加速器的加速。这被称为 100百分位的尾部延迟。理想的训练网络是可调度且可预测的。Firefly 充当通用节拍器（metronome），提供跨整个数据中心同步的 10 纳秒以下的时钟！

谷歌的另一项创新是 Falcon，它集成在英特尔 SmartNIC E2100 中。它启用了一个“定时轮”（timing wheel），可以调整数据包输入网络的速度，以减少拥堵，就像大型城市高速公路上的绿灯/红灯一样。

在以太网领域，博通的Tomahawk芯片堪称王者，它被广泛应用于大多数交换机，例如市场领导者Arista的交换机。在Hot Chips大会上，博通表示，Tomahawk Ultra现已上市，每款产品配备512个100G-PAM4端口。Tomahawk Ultra将为横向扩展网络提供更快的超级以太网交换机。

博通 (Broadcom) 也在推广用于扩展网络 (SUE = 扩展以太网) 的 Tomahawk Ultra。NVLink 仅与 Nvidia 合作，尽管他们表示愿意让其他 AI 加速器使用其专有接口进行连接——但迄今为止，尚无任何人宣布这样做的计划。

Tomahawk Ultra SUE 是目前唯一针对非 Nvidia 厂商的扩展解决方案。Tomahawk SUE 添加了链路层重试。之前丢弃的数据包在堆栈的更高层处理，延迟要长得多。链路层重试在 UALink 中，可能也在 NVLink 中。还添加了基于信用的流量控制——就像在 UALink 规范中一样。还添加了其他几个用于扩展的功能。延迟比 UALink 高，但差别不大（250 纳秒 vs 200 纳秒），至少根据幻灯片显示是这样。博通暗示，他们有客户正在设计 1K 甚至 2K GPU 的 pod，并且正在考虑使用两层交换机。

其他专注于扩大规模的交换机厂商包括 Marvell、Astera Labs 以及 Xconn 等初创公司。

UALink 是 AMD 和其他公司正在为非 Nvidia 生态系统推广的扩展互连技术。UALink 规范非常详细，长达数百页。多家公司正在实施该规范。目前尚未有公司宣布全面上市。UALink 的设计目标是连接多达 1,024 个 GPU（但能否实现取决于互连技术。铜缆无法实现这一点）。

超大规模加速器定制化纵向扩展互连市场也存在。有传言称，AWS 希望为其 Trainum 加速器的纵向扩展战略优化交换机。

华为也出席了Hot Chips大会。根据美国现行法规，他们无法使用最新的英伟达技术。他们提出了一种基于以太网的统一总线，该总线无需协议转换，从而降低了网络延迟。

谷歌的TPU采用了截然不同的网络方案。在Hot Chips大会上，他们介绍了全新的Ironwood TPU及其互连方案。

Google TPU 从一开始就采用超立方体互连。每个 TPU 都有 6 个高速互连。在最简单的超立方体中，TPU 以 2 x 2 x 2 的立方体形式连接。每个 TPU 都连接到 X、Y 和 Z 维度上的相邻 TPU。在 2 x 2 x 2 立方体中，所有 TPU 都直接连接到其他所有 TPU。在更大的超立方体中，TPU 之间存在多跳。TPU 配置可动态调整，以适应最多 8,192 个 TPU 的模型规模。现在，如上所示，机架间连接采用可插拔光纤，并添加了一个光开关，用于连接到所有 TPU 共享的超大内存池。

“跨规模网络”（Scale-across networking ）是一个新术语，我第一次听到它是在 Nvidia 的 Hot Chips 演讲“Co-Packaged Silicon Photonics Switches for Gigawatt AI Factories.”中。这是共封装光学器件 (CPO) 的首次部署。正如他们所解释的，CPO 的目的是与可插拔光学器件相比大幅降低功耗。功耗是数据中心的一个关键限制因素。节省的每一瓦功耗都意味着可以在给定的数据中心功耗预算内安装更多的 GPU。光学器件的另一个优势是，相距数公里的数据中心内的交换机可以互操作。这通常是训练日益庞大的 Frontier LLM 所必需的。