谷歌联手Meta将PyTorch引入TPU,能否冲击CUDA主导地位?

新智元报道
编辑:艾伦
【新智元导读】谷歌正在推进一项代号为「TorchTPU」的战略行动,核心是让全球最主流的 AI 框架 PyTorch 在自家 TPU 芯片上跑得更顺畅。这项行动不仅是技术补课,更是一场商业围剿。作为 PyTorch 的掌控者,Meta 也深度参与其中,两家巨头试图联手松动英伟达的垄断地位。对于谷歌而言,卖芯片不再是终点,降低开发者的迁移门槛,才是真正介入战争的开始。
谷歌正在发起一项代号为「TorchTPU」的新行动,试图以此打破英伟达在 AI 算力市场的长期垄断。

据知情人士透露,这项计划的核心在于让谷歌自研的 AI 芯片(TPU)能够更顺滑地运行 PyTorch,这是目前全球最主流的 AI 软件框架。
这是谷歌激进战略拼图中的关键一块,他们希望将 TPU 打造为英伟达 GPU 的有力替代者。
随着谷歌急需向投资者证明其巨额 AI 投入的回报能力,TPU 的销售已然成为谷歌云营收增长的重要引擎。
但光有硬件是不够的。
知情人士指出,「TorchTPU」旨在消除那道长期阻碍 TPU 普及的无形围墙,也就是让那些早已习惯在 PyTorch 环境下搭建技术架构的客户,能够无痛迁移到谷歌的硬件上。
甚至有消息称,为了加速这一进程,谷歌正考虑将部分软件开源。
相较于过往对 PyTorch 的零星支持,这一次谷歌投入了前所未有的组织关注度和战略资源。
这一转变的背后,是越来越多渴望采用 TPU 的企业发出的呼声。对他们来说,芯片是个好东西,但软件栈却成了瓶颈。
在硅谷,PyTorch 是 AI 模型开发者的通用语言,而它的最大支持者正是 Meta。
在这个行业里,极少有开发者会去为英伟达、AMD 或谷歌的芯片逐行编写底层代码,他们依赖的是像 PyTorch 这样的工具库来自动化处理开发任务。
自 2016 年发布以来,PyTorch 的成长史几乎就是一部与英伟达 CUDA 生态的绑定史。
华尔街分析师普遍认为,CUDA 才是英伟达抵御竞争对手最坚固的盾牌。
多年来,英伟达的工程师们不仅造芯片,更致力于确保 PyTorch 开发的模型在其硬件上跑得又快又好。
相比之下,谷歌此前走了一条截然不同的路。
他们拥有庞大的内部软件军团,使用一套名为 Jax 的代码框架,并通过 XLA 工具来优化 TPU 的运行效率。
谷歌自身的 AI 软件栈和性能优化大多围绕 Jax 构建,这种「圈地自萌」的做法,拉大了谷歌芯片与外部客户实际使用习惯之间的鸿沟。
面对路透社的询问,谷歌云发言人虽未对该项目细节置评,但确认了这一战略方向。
他表示,无论是 TPU 还是 GPU 基础设施,需求都在加速爆发,谷歌的重心是提供足够的灵活性和规模,无论开发者选择在何种硬件上构建应用。
从自用到外售
TPU 的角色演变
曾几何时,谷歌将绝大多数 TPU 产能视为「私藏珍品」,仅供内部使用。
这一局面直到 2024 年才发生改变,谷歌云部门成功争取到了 TPU 的销售主导权。
此后,谷歌云大幅增加了对外分配的 TPU 额度,试图在客户对 AI 兴趣激增的当下,通过扩大产能和销售来抢占市场。
然而,供需之间存在错位。
全球大多数 AI 开发者使用的是 PyTorch,而谷歌芯片最擅长的却是 Jax。
这意味着,想要使用谷歌芯片并获得比肩英伟达的性能,开发者必须进行大量额外的工程适配。
在分秒必争的 AI 竞赛中,这种时间和资金的消耗是企业难以承受的。
如果「TorchTPU」计划成功,它将显著降低企业寻找英伟达 GPU 替代方案时的转换成本。
英伟达之所以难以撼动,不仅在于硬件性能,更在于 CUDA 生态已经深深嵌入 PyTorch,成为训练和运行大模型的默认选项。
知情人士表示,企业客户曾反复向谷歌反馈,TPU 虽好,但接入门槛太高,因为历史上它强迫开发者放弃通用的 PyTorch,转而学习谷歌内部偏好的 Jax。
盟友 Meta
敌人的敌人就是朋友
为了加速开发进程,谷歌找来了一位关键盟友,即 PyTorch 的创造者和守护者 Meta。
据知情人士透露,这两大科技巨头正在商讨协议,让 Meta 获得更多 TPU 的使用权。此前《The Information》也曾报道过这一动向。
在早期合作中,谷歌主要以托管服务的形式向 Meta 提供支持。
Meta 使用谷歌设计的芯片运行谷歌的软件和模型,并由谷歌提供运营维护。
对 Meta 而言,推动软件适配 TPU 具有极高的战略价值,它不仅能降低推理成本,更能通过硬件基础设施的多元化来减少对英伟达的依赖,从而在谈判桌上获得更多筹码。
Meta 方面对此拒绝置评。
今年以来,谷歌已开始将 TPU 直接出售给客户的数据中心,而不再局限于自家的云服务。
组织架构也在随之调整,谷歌老将 Amin Vahdat 本月被任命为 AI 基础设施负责人,直接向 CEO 桑达尔·皮查伊(Sundar Pichai)汇报。

这套基础设施对谷歌至关重要,它不仅要支撑包括 Gemini 聊天机器人和 AI 搜索在内的自家产品,也要服务于像 Anthropic 这样依赖谷歌云 TPU 算力的外部独角兽。
参考资料:
https://www.reuters.com/business/google-works-erode-nvidias-software-advantage-with-metas-help-2025-12-17/
秒追ASI
⭐点赞、转发、在看一键三连⭐
点亮星标,锁定新智元极速推送!
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
中芯国际封装技术最新布局与战略部署解析
5月15日,中芯国际在业绩说明会上披露了一项关键战略布局:公司自2015年起便已前瞻性地投入封装技术研发,尤其在先进封装领域进行了长期积累。经过数年的快速发展,其战略路径已非常明确——专注于为自身晶圆制造客户提供所需的关键前端封装技术支持。基于这一战略,中芯国际在过去十年间持续深耕3D CIS(CM
阿里巴巴推出AI工业知识考试系统确保回答准确性
最近,工业AI领域有一项研究值得关注。这项由阿里巴巴集团淘宝天猫多模态与工业AI团队主导的工作,已于2026年5月正式发布,论文编号为arXiv:2605 10267v2。其核心成果,是一套名为IndustryBench的专业测试系统。 不妨设想这样一个场景:你是一家工厂的采购经理,正考虑用AI来核
腾讯北大联合研发强化学习新方法提升机器人全局决策能力
强化学习是一种让智能体通过与环境交互、从试错中学习最优决策策略的人工智能技术。其核心机制类似于训练宠物:做出正确行为给予奖励,错误行为则没有。智能体在模拟或真实环境中不断尝试,根据反馈调整策略,最终找到获得最高累积回报的行动序列。然而,传统强化学习的样本效率低下是公认的难题——智能体往往需要数百万甚
香港中文大学研发频谱守护者优化器提升AI训练稳定性
训练大型语言模型,如同在云端构建一座持续生长的知识大厦。随着模型层数不断增加,任何微小的参数偏差都可能被逐层放大,最终导致训练过程失控。如何确保这座大厦在建造过程中始终保持结构稳定,一直是困扰研究人员的核心挑战。 近期,一项由香港中文大学、马克斯·普朗克智能系统研究所和西湖大学联合发布的技术报告,带
豆包服务中断原因与恢复时间详解
5月19日晚间,“豆包崩了”这一话题迅速冲上各大社交平台热搜榜首,引发广泛关注。众多用户反映,豆包AI服务突然出现中断,导致正在进行的在线学习、文案创作、代码编程等工作被迫暂停,一时间用户反馈激增。 事实上,这并非豆包首次出现服务异常问题。回顾今年1月28日,豆包就曾发生过一次影响范围较大的区域性服
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

