数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

科技数码

深度解析Groq LPU架构：英伟达200亿买下的芯片有何过人之处？

深度解析Groq LPU架构：英伟达200亿买下的芯片有何过人之处？

热心网友时间：2026-03-30

转载

你有没有想过，为啥现在AI芯片越做越大，但单次推理延迟就是降不下来？你去问做AI部署的哥们，十个有九个会跟你吐槽：GPU这块，大模型推理就是看batch吃满了能跑多少吞吐量，但你要真给用户做实时交互

你有没有想过，为啥现在AI芯片越做越大，但单次推理延迟就是降不下来？

你去问做AI部署的哥们，十个有九个会跟你吐槽：GPU这块，大模型推理就是看batch吃满了能跑多少吞吐量，但你要真给用户做实时交互，那延迟真是飘忽不定，完全看脸。

今天咱聊一片当年在架构圈扔了炸弹的论文——Groq在2020年ISCA发表的张量流处理器TSP，这片子直接把传统CPU/GPU那套缓存仲裁全砍了，用一套「功能分片+流式编程」的思路，硬生生把ResNet50单batch推理做到了每秒20400张图，比同期GPU快了4倍。

这也可以看做Groq第一代的LPU，也是Groq一以贯之的架构。

更狠的是，人家人称「地表最确定AI芯片」，运行时间编译器就算得明明白白，一点惊喜都不给你留。

最终，凭借这个架构，Groq被英伟达200亿美金收购，

那么价值200亿美金的架构是怎样的？

今天咱拆开说。

1. 为什么传统架构做不好单batch推理？

要讲明白TSP牛在哪，得先挖挖坑：现在常用的CPU/GPU，问题出在哪？

传统的多核架构，不管是CPU还是GPU，基本上都是图1(a)那样：每个核都是完整的——取指、译码、执行、缓存啥都有，然后用一个二维网格把这些核连起来。

传统二维网格vs功能分片架构

这种设计有什么问题？

每个核都要自己做动态调度，遇到突发访问就得争总线抢缓存，延迟根本说不准。

你想啊，现在AI推理，特别是线上服务，基本上都是用户来一个请求处理一个，batch size就是1，你那些动态调度、缓存预取、分支预测啥的，其实都是在帮倒忙——看起来是优化性能，实际上带来了不确定性，还浪费了大量芯片面积做控制逻辑。

既然深度学习已经有天然的张量并行性，那我们为什么不把硬件按照功能切开，让数据像流水线上的零件一样直接流过去？

2. 功能分片：把一个核拆碎了按功能重新站队

TSP最反常识的设计，就是它的功能分片（Functional Slicing）。

咱们正常人做芯片，是把「指令控制、内存、整数运算、浮点运算、网络」都打包放到一个核里，多个核拼起来就是一块芯片。

Groq反过来了：

所有做指令控制的放一块，叫ICU切片

所有做内存的放一块，叫MEM切片

所有做向量计算的放一块，叫VXM切片

所有做矩阵计算的放一块，叫MXM切片

所有做网络交换的放一块，叫SXM切片

同一功能的tile垂直叠成切片，然后水平方向数据流过所有切片。

这样玩好处在哪？

① 公共逻辑抽出来，省面积！

所有同一功能的tile跑一样的指令，那指令译码分发只需要做一次就行了，不用每个核都放一套译码逻辑。论文说，整个控制单元ICU占的面积不到3%，太省了。

② 流水线天然垂直展开

指令从北边流下来，数据从东边流到西边，指令和数据在交叉点相遇就计算，完美解耦：

指令流在Y方向走，数据流在X方向走，互不干扰。

每个功能切片自己做自己的20级向量流水线，分工明确，没人抢资源。

③ 内存和计算彻底解耦

原来数据要从内存读到寄存器，再给计算单元用，绕一圈。现在内存切片直接把数据送到计算切片门口，计算完直接送回下一个内存切片，没有寄存器堆那套中间环节了。

3. 流编程模型：生产者消费者，像流水线一样干活

讲完了硬件架构，咱说说软件怎么玩——TSP用了非常简单粗暴的生产者-消费者流式编程模型。

我给你打个比方：

传统的RISC架构做个向量加法Z=X+Y，得先把X和Y从内存load到寄存器，加完了再store回去，绕一大圈。

传统RISC vs TSP流式执行对比

TSP呢？

内存切片就是生产者，计算切片就是消费者，X读出来直接流去加法单元，加完了直接流去写内存，根本不需要寄存器这层中间商赚差价。

这就跟汽车生产线一模一样：

传送带（流）一直在动

每个工位（功能切片）只干自己那点活

零件（数据）流过来就加工，加工完直接走

看到这你可能会问：那流具体怎么流？

我给你捋几个关键设计：

320个并行车道，天生就是给张量准备的

TSP总共支持320个并行车道，20个tile每个tile出16个lane，加起来正好320。这个lane就是硬件层面给你做好的并行，程序员直接用，不用自己去拆分任务。

64个逻辑流，东西双向流动

每个lane支持64个逻辑流，32个向东流，32个向西流，编译器精确控制每个流走哪条路，完全没有动态路由冲突。

全芯片共享220MB SRAM，够放模型参数

整个芯片有220MB的全局共享SRAM，能给所有计算单元提供每个lane 32字节的流带宽，把四个320×320矩阵所有权重装填好，不到40个周期就完事。速度非常可观。

4. 为什么要干掉缓存和仲裁？确定性比什么都重要

这篇论文最狠的一句话，我给你摘出来：

我们干掉了所有反应性硬件，比如仲裁器和缓存。

看到这句的时候，我第一次读真的惊了——现在哪个芯片不带缓存？你疯了？

但人家逻辑非常清晰：

缓存就是用来应对不确定性的——你不知道接下来要访问什么数据，所以放一块缓存碰碰运气。缓存命中率高了跑得快，低了直接死给你看，延迟根本没法保证。

如果你能通过编译器静态把所有调度都安排得明明白白，那缓存还有个屁用？直接砍掉省面积省功耗不好吗？

TSP就是这个思路：

没有动态仲裁，所有路由都是编译器算好的确定性路由，走哪条路时间都算死了

没有缓存，所有数据都放在SRAM里，地址静态分配，访问时间固定

没有乱序执行，指令顺序编译器拍板，硬件老实按顺序跑就行

这么做带来了什么好处？

整个芯片运行的时候，每一段程序要花多少时间，编译器在编译的时候就能精确算出来，跑的时候一定是这个时间，一点不差。

这对云服务来说太香了——你给用户做SLA，说我这延迟一定不超过50ms，那你就得做到。要是换成带缓存的GPU，万一缓存miss了，直接给你蹦到几百ms，你这SLA就破了。

5. 干出了什么成绩？数据说话

说一千道一万，成绩拿出来溜溜。论文给的数据非常劲爆：

ResNet50 单batch IPS：20400张/秒—— 同期GPU/TPU大概5000张，快了4倍

单张图片延迟：不到49μs—— 这意味着什么？一百张图片加起来延迟才不到5毫秒

计算密度：超过1 TeraOp/s/mm²—— 14nm工艺，900MHz，芯片面积25×29mm

功耗效率：在限定功耗内实现更高吞吐 —— 因为没有动态逻辑，省了不少功耗

这个数据放在20年那真是降维打击——单batch推理，TSP直接就是4倍的提升，这在AI芯片圈很少见。

要知道，这还是人家第一代芯片，后来Groq做大模型推理，那个低延迟名声就是从这篇论文打下来的基础。

Groq TSP 芯片die photo 6. 这个架构思路给我们什么启发？

聊完技术细节，咱拔高一层说——TSP这思路，为啥现在看仍然很牛？

① 专业架构就得干专业的事

通用CPU/GPU要照顾各种各样的工作负载，所以不得不做很多动态逻辑，面积功耗都浪费了。但是AI推理这个场景，特性非常明确：

计算都是大张量运算，并行度天然足够

模型参数编译的时候就知道了，不需要动态加载

云端部署对延迟确定性要求极高

那我针对这个场景，把所有不确定的东西都干掉，不就能榨干每一寸芯片的性能吗？

这就是领域专用架构的魅力——不是说我堆更多核更大缓存，而是我把不必要的东西都砍掉，把面积功耗都用在刀刃上。

② 确定性性能是一种奢侈品，但非常值钱

现在大家一提到AI芯片就比TOPS比带宽，但很少有人提确定性。实际上，对于真正在线部署来说，可预测的延迟比峰值吞吐量值钱一万倍。

你做个ChatGPT，用户问你个问题，你一会儿100ms出结果，一会儿500ms出结果，用户体验肯定差。但要是你能保证每次都在200ms以内，体验立马上去了。

TSP把缓存砍了，就是把「不确定性」从根上掐了，这思路太绝了。

③ 软件分担更多，硬件更简单

TSP把所有调度都扔给编译器做，硬件只需要傻跑就行了。这其实是现在很多新架构的趋势：

硬件简化，软件变复杂

静态调度代替动态仲裁

编译器替你把一切安排好

这样硬件设计简单了，可靠性上去了，性能也上去了，一举多得。

7. 总结：AI芯片这条路，其实还远没走到头

很多人说，现在AI芯片不就是堆堆堆吗？堆核堆缓存堆带宽，拼工艺拼成本，创新空间不大了。

但Groq这篇论文告诉我们：只要你敢跳出传统CPU/GPU的框框，换个思路玩，就能搞出比传统架构更优的性价比。

注意：不是普适性，普适性CPU和GPU更普世，而是更有针对性，在LPU针对大模型推理方面性能比CPU和GPU更有优势，这也是为什么英伟达花200亿美金买Groq的原因。。

从上面就可以看到，Groq把缓存砍了，功能分片，流式执行，这么简单几个思路改变，直接干出了4倍的性能提升。

这就是架构创新的魅力。

文章来源于歪睿老哥，作者歪睿老哥

来源:https://www.163.com/dy/article/KP90AFLF0531PW97.html

上一篇：存储芯片价格暴跌，美韩芯片垄断谋略破灭与中国芯片崛起

下一篇：油气股普跌，首华燃气与蓝焰控股跌超4%

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

同类文章

小猿AI接入多模态AI能力，推动智能学习体验升级

小猿AI接入多模态AI能力，推动智能学习体验升级

小猿AI升级为全学科AI学习助手，强化多模态能力，支持图像识别、文本理解与题目解析；拍照后可智能分析题型、匹配知识点并推荐练习；语文英语模块新增语句纠错、单词解释及作文辅助功能。小猿AI近期在产品能力上迎来重要升级，正式强化多模态AI能力，使其在图像识别、文本理解与题目解析方面表现更加全面。据产品体

时间：2026-07-13 14:19

阶跃AI推动多模态AI发展：语音与内容生成能力持续增强

阶跃AI推动多模态AI发展：语音与内容生成能力持续增强

阶跃AI正加速构建多模态AI能力，重点布局语音识别与生成、跨模态内容理解；强化语音交互，支持自然语音输入输出；提升图文理解能力，拓展至营销文案、知识整理等智能写作场景；向全面智能助手演进。阶跃AI正在加速推进多模态AI能力建设，重点布局语音识别、语音生成以及跨模态内容理解能力。在最新技术方向中，阶跃

时间：2026-07-13 14:16

AMD EXPO超低延迟DDR5内存实测：游戏帧率与性能显著提升

AMD EXPO超低延迟DDR5内存实测：游戏帧率与性能显著提升

AMDEXPOULLDDR5内存实测游戏帧率平均提升约4%，通过优化tRRD等时序降低延迟。《F125》和《赛博朋克2077》分别提升4 3%和4 5%，部分游戏涨幅低于2%。32GB套条售价529美元，开箱即用稳定性能。

时间：2026-07-13 13:55

红米Note 17 Pro手机搭载9000mAh超大电池并支持67W快充超长续航

红米Note 17 Pro手机搭载9000mAh超大电池并支持67W快充超长续航

红米Note17Pro搭载9000mAh超大电池，支持67W快充和22 5W反向充电，获得TUV南德安全认证，首销赠送五年电池升级保障。屏幕采用康宁大猩猩玻璃Victus2，通过三米抗摔测试，坚固耐用。具备IP66 68 69 69K级防水，通过水下2米72小时测试，防水性能卓越。7月14日正式发布。

时间：2026-07-13 13:55

谷歌Pixel 11 Pro Fold松木色渲染图曝光

谷歌Pixel 11 Pro Fold松木色渲染图曝光

昨日，知名爆料者Mystic Leaks再度曝光了一组谷歌Pixel 11 Pro Fold折叠屏手机的渲染图，此次展示的是一款名为“松木色”的全新配色。谷歌Pixel 11 Pro Fold 从渲染图来看，这款“松木色”实际是一种低饱和度的灰绿色，初看时很容易令人联想到翡翠色版本的Pixel 1

时间：2026-07-13 13:55

热门专题

刀塔传奇破解版无限钻石下载大全

刀塔传奇破解版无限钻石下载大全

洛克王国正式正版手游下载安装大全

洛克王国正式正版手游下载安装大全

思美人手游下载专区

思美人手游下载专区

好玩的阿拉德之怒游戏下载合集

好玩的阿拉德之怒游戏下载合集

不思议迷宫手游下载合集

不思议迷宫手游下载合集

百宝袋汉化组游戏最新合集

百宝袋汉化组游戏最新合集

jsk游戏合集30款游戏大全

jsk游戏合集30款游戏大全

宾果消消消原版下载大全

宾果消消消原版下载大全

热门数据榜

iPhoneXS升级后屏幕失灵强制重启按音量加减电源键

苹果手机手写功能开启与设置方法

iPhone情侣模式双人通知设置教程不错过对方消息

iPhone情侣模式视频通话开启设置方法

苹果手机手电筒灰色无法打开解决方法

iPhone情侣模式视频分享与上传同步方法

苹果手机通话录音怎么操作详细步骤教程

苹果手机怎么通话录音各种实现方法汇总

苹果手机长截图详细操作方法步骤全攻略

苹果手机边打电话边录音可行性及方法

iPhoneXS升级后屏幕失灵强制重启按音量加减电源键

苹果手机手写功能开启与设置方法

iPhone情侣模式双人通知设置教程不错过对方消息

iPhone情侣模式视频通话开启设置方法

苹果手机手电筒灰色无法打开解决方法

iPhone情侣模式视频分享与上传同步方法

苹果手机通话录音怎么操作详细步骤教程

苹果手机怎么通话录音各种实现方法汇总

苹果手机长截图详细操作方法步骤全攻略

苹果手机边打电话边录音可行性及方法

iPhoneXS升级后屏幕失灵强制重启按音量加减电源键

苹果手机手写功能开启与设置方法

iPhone情侣模式双人通知设置教程不错过对方消息

iPhone情侣模式视频通话开启设置方法

苹果手机手电筒灰色无法打开解决方法

iPhone情侣模式视频分享与上传同步方法

苹果手机通话录音怎么操作详细步骤教程

苹果手机怎么通话录音各种实现方法汇总

苹果手机长截图详细操作方法步骤全攻略

苹果手机边打电话边录音可行性及方法

相关攻略

相关攻略

小猿AI接入多模态AI能力，推动智能学习体验升级

2026-07-13 14:19

小猿AI接入多模态AI能力，推动智能学习体验升级

阶跃AI推动多模态AI发展：语音与内容生成能力持续增强

2026-07-13 14:16

阶跃AI推动多模态AI发展：语音与内容生成能力持续增强

AMD EXPO超低延迟DDR5内存实测：游戏帧率与性能显著提升

2026-07-13 13:55

AMD EXPO超低延迟DDR5内存实测：游戏帧率与性能显著提升

红米Note 17 Pro手机搭载9000mAh超大电池并支持67W快充超长续航

2026-07-13 13:55

红米Note 17 Pro手机搭载9000mAh超大电池并支持67W快充超长续航

谷歌Pixel 11 Pro Fold松木色渲染图曝光

2026-07-13 13:55

谷歌Pixel 11 Pro Fold松木色渲染图曝光

Gitee年度开源项目评选结果七大赛道TOP10揭晓

2026-07-13 13:55

Gitee年度开源项目评选结果七大赛道TOP10揭晓

雷蛇北海巨妖萌猫版V2 BT耳机大耳狗联名款

2026-07-13 13:55

雷蛇北海巨妖萌猫版V2 BT耳机大耳狗联名款

索尼首款折叠屏Xperia Fold折痕改善成关键

2026-07-13 13:55

索尼首款折叠屏Xperia Fold折痕改善成关键

热门教程

游戏攻略
安卓教程
苹果教程
电脑教程

炉石传说预备妥当成就完成攻略

炉石传说预备妥当成就完成攻略发布于 2026-07-13

重返未来1999回声谣培养与玩法攻略

重返未来1999回声谣培养与玩法攻略发布于 2026-07-13

杀戮尖塔2静默猎手毒流玩法与卡牌选择攻略

杀戮尖塔2静默猎手毒流玩法与卡牌选择攻略发布于 2026-07-13

最新云顶之弈S17特攻剑圣阵容搭配详细攻略

最新云顶之弈S17特攻剑圣阵容搭配详细攻略发布于 2026-07-13

女神异闻录3 Reload累计销量突破300万套

女神异闻录3 Reload累计销量突破300万套发布于 2026-07-13

泰拉瑞亚翅膀制作方法材料与合成全攻略

泰拉瑞亚翅膀制作方法材料与合成全攻略发布于 2026-07-13

FIFA预售世界杯决赛场地草皮每块450美元

FIFA预售世界杯决赛场地草皮每块450美元发布于 2026-07-13

明日方舟终末地向渊行版本相伴庆典前瞻

明日方舟终末地向渊行版本相伴庆典前瞻发布于 2026-07-13

CentOS 7手动释放内存缓存的详细方法

CentOS 7手动释放内存缓存的详细方法发布于 2026-07-13

Mac菜单栏查看当前WiFi频率的实用方法

Mac菜单栏查看当前WiFi频率的实用方法发布于 2026-07-13

CentOS 7系统默认语言修改方法

CentOS 7系统默认语言修改方法发布于 2026-07-13

Linux查看具体磁盘逻辑卷管理组坏块屏蔽记录

Linux查看具体磁盘逻辑卷管理组坏块屏蔽记录发布于 2026-07-13

新飞冰箱温度调节按键操作指南

新飞冰箱温度调节按键操作指南发布于 2026-07-13

iPhone Pro Max拍月亮模糊原因与解决

iPhone Pro Max拍月亮模糊原因与解决发布于 2026-07-13

打印照片避免打印机卡纸的实用技巧与方法

打印照片避免打印机卡纸的实用技巧与方法发布于 2026-07-13

电脑硬盘型号怎么看

电脑硬盘型号怎么看发布于 2026-07-13

热门话题

多智能体协作教程_Multi-Agent系统入门_AI智能体协同指南

多智能体协作教程_Multi-Agent系统入门_AI智能体协同指南

Claude Code使用教程_Claude代码智能体入门_项目开发实战指南

Claude Code使用教程_Claude代码智能体入门_项目开发实战指南

OpenAI Codex使用教程_Codex代码智能体指南_AI编程实战手册

OpenAI Codex使用教程_Codex代码智能体指南_AI编程实战手册

GitHub Copilot Coding Agent教程_Copilot智能体开发指南_GitHub自动编程

GitHub Copilot Coding Agent教程_Copilot智能体开发指南_GitHub自动编程

OpenClaw使用教程_OpenClaw智能体框架解析_AI Agent开发指南

OpenClaw使用教程_OpenClaw智能体框架解析_AI Agent开发指南

可灵AI使用教程_可灵视频生成指南_AI短片创作技巧

可灵AI使用教程_可灵视频生成指南_AI短片创作技巧

海螺AI使用教程_MiniMax视频音乐生成指南_海螺AI实战技巧

海螺AI使用教程_MiniMax视频音乐生成指南_海螺AI实战技巧

讯飞星火使用教程_星火大模型功能解析_办公写作学习指南

讯飞星火使用教程_星火大模型功能解析_办公写作学习指南

文小言使用教程_百度AI助手功能解析_文心智能体使用指南

文小言使用教程_百度AI助手功能解析_文心智能体使用指南