当前位置: 首页
科技数码
英伟达拟发布推理芯片新架构,揭秘“神秘芯片”设计

英伟达拟发布推理芯片新架构,揭秘“神秘芯片”设计

热心网友 时间:2026-03-11
转载

21世纪经济报道 邓浩 孙燕

今年三月中旬,英伟达将在加州圣何塞召开GTC大会。这场盛会,无疑是AI领域最受瞩目的行业风向标之一。就在不久前,黄仁勋宣布,公司将推出一款“前所未见”的全新芯片。

消息一出,资本市场热议四起。目前的主流观点是,计划于GTC大会上发布的这款芯片,最有可能的形态是融入Groq LPU设计理念的全新推理产品。

业内专家分析,这款芯片不太可能是“加速插件”。云岫资本AI/智能制造组董事庄昌磊对记者表示,“如果作为现有GPU的插件,其数据传输仍需经过PCIe或NVLink等外部接口,这本身就会引入新的延迟,部分抵消SRAM低延迟的优势。”

他进一步补充道,“更理想的方案,或许是像Cerebras那样,打造一个专为推理设计、以SRAM为核心的崭新计算架构。”

推理时代来临

随着以小冰“小龙虾”为代表的新一代智能体应用走红,全球算力需求结构正经历显著转变,市场重心也从训练转向推理。

根据德勤《2026科技、传媒和电信行业预测》,到2026年,“推理”将占据全部AI计算能力的三分之二。并且,未来还将出现价值数十亿美元的推理专用优化芯片,它们将被部署在数据中心和企业服务器中。部分芯片的功耗将与通用AI芯片相当甚至更高。

近日,记者获悉,对于此次大会,业界预测的最大亮点,除了预计英伟达将正式揭晓Rubin及下一代Feynman架构GPU的核心技术细节外,还普遍认为其极有可能会推出一款整合了LPU技术的全新推理芯片。

作为整合了Groq团队LPU技术的全新推理芯片系统,这或将是英伟达首次在其核心AI算力产品线中大规模引入外部架构。

中信证券称,此前英伟达推出Rubin CPX针对Prefill环节降本需求,而在完成对Groq相关技术的吸收整合后,本次或许会推出LPU或“类LPU”芯片来实现Decode环节的提效。

在推理过程中,模型一般需经历两个阶段。首先,在pre-fill阶段处理用户输入;其次,在decode阶段,逐个生成输出结果。

实际影响用户体验的关键,在于decode阶段的生成速度与延迟。在基于GPU的推理架构中,由于大量模型参数存放在HBM中,计算核心与HBM之间需要进行频繁的数据搬运,这会影响模型decode阶段的时效性。

而Groq的LPU专为推理加速设计,它采用离计算核心更近的存储单元SRAM来存储模型参数。例如,约230MB的片上SRAM可提供高达80TB/s的内存带宽,数据处理速度远超GPU架构。

不过,从物理设计来看,用SRAM完全取代HBM并不可行。

庄昌磊解释道,面对当前动辄千亿、万亿参数的大模型,纯SRAM方案在容量上完全无法胜任。那么,英伟达可能会如何进行创新?

答案很可能不是“替代”,而是“叠加”。庄昌磊表示,“根据产业消息,英伟达可能采用类似AMD 3D V-Cache的技术,通过台积电的SoIC混合键合技术,将专为推理加速设计的、包含大量SRAM的LPU单元,直接3D堆叠在GPU核心晶圆之上。”

供应链或生变

对于3D堆叠方案,AMD等头部厂商已有布局。2024年AMD公布了3D垂直缓存技术,可将额外的7nm SRAM缓存垂直堆叠在Ryzen计算小芯片顶部,大幅增加L3缓存数量。2024年7月,富士通介绍旗下MONAKA处理器采用3D SRAM技术,计划2027年出货。

这一方案会否走向主流?

“片上SRAM存在工艺缩放比逻辑电路慢等问题,导致在单枚芯片上SRAM占用的面积较大、成本提升。基于此,部分投资者认为SRAM架构难以成为AI芯片内存的主要方案。”东方证券则认为,SRAM 3D堆叠方案可通过垂直堆叠存储单元的方法来提升密度,规避传统SRAM容量受面积密度限制的问题。若AI推理中需要实现更高容量的SRAM,3D堆叠方案有望拓展应用。

中信证券也认为,未来的GPU与NPU都有可能采用3D堆叠SRAM的方式,实现访存带宽的飞跃,吸收LPU的优势,同时保持原有的软件生态无需变动,保留GPU和NPU的原有优势。

庄昌磊指出,复杂的AI芯片可能需要两者兼顾:先用SoIC叠堆LPU和GPU核心,再把这个堆叠好的立方体通过CoWoS与HBM封装在一起。对于一些特定的、不需要HBM容量的纯推理芯片,确实可以完全依赖3D堆叠SRAM来构建,从而绕开CoWoS,“但这部分芯片面向的是细分市场,量级难以撼动HBM+CoWoS的主流地位。”

而SRAM 3D堆叠需要在晶圆制造阶段就进行精确的晶圆对晶圆键合,技术和工艺与前段制造深度耦合。这将进一步把价值量从后道封装前移。

一方面,先进制程的价值被进一步放大。庄昌磊指出,为了在垂直堆叠中获得最高的互联密度和能效,最底层的计算晶圆必须采用最先进的工艺,这加剧了行业对尖端制程的依赖。

“另一方面,如果高端芯片的价值不断向前道制造和与之绑定的先进封装集中,本土封测厂可能面临被‘挤出’高端市场的风险。”庄昌磊认为,这也为本土封测厂带来了差异化竞争机遇,例如为不需要最尖端工艺的芯片提供成熟且高性价比的3D堆叠方案,或是在3D堆叠芯片的测试、散热、可靠性分析等后端环节建立新的技术壁垒。

来源:https://www.163.com/dy/article/KNOBH87Q05199NPP.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
茅台520深情告白老登1314传递品牌温度

茅台520深情告白老登1314传递品牌温度

5月20日,贵州茅台股价盘中触及1314元,创2024年9月以来新低。这一谐音数字引发市场关注,被投资者视为具有特殊意味的市场信号。

时间:2026-05-21 10:47
AccLock方案利用AirPods加速度计实现手机门锁安全解锁

AccLock方案利用AirPods加速度计实现手机门锁安全解锁

用耳机解锁手机或智能门锁?这听起来像是科幻电影中的场景,但一项名为AccLock的创新技术正将其变为现实。该方案巧妙利用耳机内置的加速度计,通过捕捉用户心跳产生的独特振动模式来实现身份识别,为生物认证领域带来了全新思路。 这项技术的核心原理十分巧妙:它并非依赖耳道形状识别,而是专注于采集由心跳传导至

时间:2026-05-21 10:47
阿斯麦HighNA光刻机首批芯片数月内面世 美股盘前涨超1%

阿斯麦HighNA光刻机首批芯片数月内面世 美股盘前涨超1%

阿斯麦股价盘前上涨超1%,其首席执行官透露首批采用新款高数值孔径光刻机生产的芯片有望在数月内面世。该设备是突破2纳米及更先进制程的关键,其商用落地标志着半导体制造技术进入新阶段。这为台积电、英特尔等厂商的先进工艺竞赛注入动力,高端芯片市场竞争格局或将重塑。

时间:2026-05-21 10:44
可灵AI联合中美韩导演戛纳展示AI影视工业化全球案例

可灵AI联合中美韩导演戛纳展示AI影视工业化全球案例

第79届戛纳电影节期间,可灵AI主办论坛,汇聚中美韩导演探讨AI技术融入影视工业化的路径。讨论涵盖流程升级、挑战与前景,呈现从好莱坞制作到纯AI电影的多元应用。导演乔恩·欧文以“跳伞”比喻创新勇气,肯定可灵团队的快速迭代能力。技术降低门槛后,影视创作将更回归想象力与故事本身。

时间:2026-05-21 10:44
iQOO TWS 5i耳机发布 119元享42毫秒超低延迟

iQOO TWS 5i耳机发布 119元享42毫秒超低延迟

iQOO发布新款真无线耳机TWS5i,售价119元。产品主打游戏场景,全链路延迟低至42毫秒,搭载电竞声效与空间音频。单耳重约4 2克,支持AI通话降噪、IP54防尘防水及双设备连接。续航方面,单次播放音乐最长11 5小时,配合充电盒可达50小时。

时间:2026-05-21 10:44
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程