英伟达押注AI推理:计算变革迎来重大突破

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
图1:黄仁勋开始发力推理芯片
北京时间3月17日,《华尔街日报》报道称,AI领域正在经历一场重大变革,这对大大小小的科技公司都影响深远。
过去五年间,AI领域的主要焦点一直是大语言模型的训练。这是一个成本高昂的过程,需要数万块芯片、消耗巨大的能源,且在偏远的大型数据中心进行。这一训练过程需要使用数千个专业微处理器芯片组成的集群,将数百亿条信息输入模型。芯片集群每周7天、每天24小时运行,持续数周甚至数月之久。
从训练到推理
如今,随着越来越多的公司部署AI智能体,并试图将基于大语言模型构建的新工具商业化,焦点已转向推理:这种计算方式能让训练好的AI模型响应用户的查询。
根据研究机构Gartner的数据,今年全球在推理基础设施上的资本支出,预计将首次超过训练资本支出。到2029年,企业在推理上的投入将达到720亿美元,是训练投入370亿美元的近两倍。

推理支出将超过训练
这一转变意味着,科技公司购买的芯片类型将发生重大变化。英伟达之所以成为全球市值最高的公司,靠的是销售名为GPU的芯片,这类芯片具备模型训练所需的原始处理能力。但乔治城大学研究AI的学者雅各布·菲尔德戈伊斯表示,那些预期将进行更多推理工作的公司,可以通过使用专门为推理任务优化的芯片来获得性能提升。
专门生产推理芯片的制造商包括谷歌、Cerebras Systems、SambaNova等,他们正以越来越快的速度签下价值数十亿美元的订单。英伟达则准备推出自己的推理专用处理器,此前该公司于去年12月斥资200亿美元,获得了定制推理芯片公司Groq的技术授权并吸纳其顶尖人才。
那么,究竟什么是推理计算?它与训练所需的计算有何不同?为什么需求如此迅速转向推理?这对市场又意味着什么?
推理计算的原理
你可以把AI想象成一家餐厅。模型就是那位厨师。在经过一段时间的密集培训,学习了数百乃至数十亿个食谱和烹饪技巧后,它就可以开始接单了。
推理就是这家餐厅的日常运营。食客下单,厨师备餐。

推理的原理
推理包含两个阶段,即预填充和解码。当用户输入提示词时,预填充阶段开始,模型通过处理其中的每个单词、符号或图像来解读用户的查询。
解码则是模型运用其在训练中学到的一切,生成查询响应的过程。
推理的这两个阶段对芯片有着不同的要求:预填充阶段需要更强的处理能力,而解码阶段则需要更大的内存,部分原因在于它必须调动所积累的全部知识,才能为用户呈上新鲜出炉的"词元"。
什么是词元?
词元是用于处理查询并生成响应的基本数据单位。
虽然不同类型的数据对应的换算范围有所不同,但通常认为一个词元大约相当于四分之三个英文单词。以"今天天气怎么样?"这样简单的聊天机器人查询为例,模型会将其解析为六到八个词元。

词元
模型通常逐次生成一个词元,并且必须按正确的顺序输出每个词元,这样才能保证回答通顺合理。
目前,那些试图将AI工具变现的公司,从会计软件、旅行预订服务到图像生成器,都痴迷于诸如"每瓦每秒生成的词元数"或"每美元每秒生成的词元数"这类成本指标。
芯片制造商格芯的CEO蒂姆·布林表示,这使得推理芯片高效输出结果的能力变得尤为重要,"如今,降低推理成本才是关键所在"。
训练与推理芯片的区别
由于训练需要在长时间内处理海量数据,所采用的芯片必须具备强大的处理能力,且芯片所在的数据中心必须能够获得充足的能源以及用于冷却芯片的水。训练同样需要内存,但如果GPU内存不足,可以将部分处理任务分派给其他芯片,或者等待现有内存释放。
相比之下,推理过程是按需进行的,耗时以秒计,而非数周。"超过十秒钟,用户就已经开始用大拇指敲手机屏幕,准备去做下一件事了。"芯片设计公司SambaNova的CEO罗德里戈·梁表示。
因此,推理芯片必须配备更大容量的高带宽内存,且其所在的数据中心必须邻近用户聚集区以降低延迟。像Ayar Labs这样的芯片创业公司也越来越多地采用光纤连接组件,光纤的数据传输速度比铜缆更快,且所需冷却更少。
Ayar Labs CEO马克·韦德表示:"如今,一切都围绕着推理规模化展开。"
更多一手新闻,欢迎下载凤凰新闻客户端订阅科技。想看深度报道,请微信搜索"科技"。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
南加州大学突破大模型编辑瓶颈实现知识更新与记忆稳固
南加州大学计算机科学系团队在2026年2月发表了一项引人注目的研究(论文编号:arXiv:2602 15823v1),为大语言模型的知识更新难题提供了一个全新的解决思路。他们开发的CrispEdit方法,就像为AI配备了一把精准的“知识手术刀”,能够在不损伤原有能力的前提下,植入新的知识。 不妨设想
微软Copilot付费用户超2000万 年增长率达33%
微软Copilot企业付费用户突破2000万,较年初增长33%。该AI助手已深度集成至办公软件,新推出的智能体功能可自动执行多步任务以提升效率。用户使用频率显著上升,周度活跃度已与Outlook相当。其采用多元化模型生态,除OpenAIGPT外还支持AnthropicClaude等模型,以降低依赖并提供灵活选择。
纽约大学提出成本感知AI框架 让智能体学会权衡决策
2026年2月,一项发表于机器学习预印本平台arXiv的开创性研究(论文编号:arXiv:2602 16699v2)引发了广泛关注。这项由纽约大学团队主导的工作,深入探讨了AI智能体在复杂任务中面临的核心挑战:如何像人类一样,在“深入探索以获取更多信息”与“基于现有信息果断行动”之间做出最优权衡?这
谷歌Chrome浏览器为何自动安装本地AI模型
谷歌Chrome浏览器在部分用户设备上静默安装约4GB的本地AI模型GeminiNano,用于反诈识别和信息辅助等功能。该模型仅在硬件符合要求时安装,用户可通过文件管理器或浏览器设置进行确认或关闭。此举被质疑违反欧盟数据保护条例,并将AI运算成本转移至用户设备。
2026款现代IONIQ 5评测 高性价比电动SUV值得买吗
2026款现代IONIQ5起售价降至35000美元,叠加优惠后约26000美元。长续航版续航达318英里,支持800V超快充,15分钟可补能约178英里。标配NACS接口,可使用特斯拉超充网络。车内空间宽敞,配备双12 3英寸屏及无线手机互联。租赁月费低至259美元,相比竞品性价比突出,获评多项年度大奖。
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

