Meta第二代自研AI芯片性能提升三倍以上

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

Meta第二代自研AI芯片性能提升三倍以上

热心网友时间：2026-05-28

转载

不久前，Meta宣布将斥资150亿美元采购60多万块GPU，这还不算系统成本。就在大家以为Meta准备把所有筹码押在GPU上时，它悄然放出了下一代自研AI芯片——MTIA v2。

基于5nm打造，性能三倍以上

相比上一代MTIA v1，MTIA v2的工艺从台积电7nm升级到了5nm，主频也从800MHz提升至1.35GHz。得益于工艺改进，尽管晶体管数量大幅增加，芯片面积仅增加了12%。

MTIA v2芯片 / Meta

性能提升的核心在于算力。根据Meta给出的数据，其GEMM算力达到354TFLOPS/s（INT8），SIMD算力达到11.06TFLOPS/s（INT8），相较上一代均提升了3倍以上。接口也从8x PCIe 4.0升级到8x PCIe 5.0，带宽直接翻倍。算力的飞跃除了工艺升级，很可能也与内核迭代有关。结合晶心科技与Meta合作开发数据中心AI处理器的消息来看，MTIA v1很可能采用了晶心科技的首个商用RISC-V矢量处理器内核NX27V，而MTIA v2则大概率用上了最新的AX45MPV内核——三倍以上的性能提升幅度与MTIA的算力提升吻合，当然，这目前还只是推测。

值得注意的是，与同期发布的英特尔Gaudi 3不同，MTIA v2在内存配置上依然没有选择HBM。片上内存只有256MB，片外内存选用了LPDDR5。虽然片上内存带宽高达2.7TB/s，但这注定了MTIA v2很难高效承载大模型应用。在硬件堆料之下，MTIA v2的功耗也来到了90W，相比MTIA v1的25W有较大幅度增加。不过与H100的能耗比相比，MTIA v2仍有明显优势。这也意味着上一代的服务器方案可能不再适用，Meta为此为新翻跟斗打造了全新的机柜系统。单个机架由三个底盘构成，每个底盘塞进12块板卡，每块板卡集成2个翻跟斗——也就是说，单个机架共有72个MTIA v2翻跟斗，单机柜至少需要6000W的电源供应。若要实现多机架扩展，还可以加入RDMA NIC。

Meta表示，这样的性能成绩离不开硬件本身的提升，也归功于在优化内核、编译器和运行时上的持续投入。随着后续开发生态进一步成熟，针对特定模型进行优化的时间会进一步缩短，而且未来还有不少空间可以继续挖掘芯片的效率潜力。

软件栈引入新的编译器

伴随新硬件的发布，Meta也在软件栈上加大了投入。作为PyTorch的开发者，MTIA的软件栈从设计之初就实现了与PyTorch 2.0的完全集成，并支持TorchDynamo和TorchInductor等新特性。与此同时，为了简化应用开发者的工作，为MTIA v1开发的代码也能向下兼容新的MTIA v2硬件。Meta透露，由于已将全部软件栈集成在新芯片内，发布之际，他们已经在自己的服务器上用MTIA v2跑了一段时间了。正是因为有这种兼容的软件栈方案，Meta可以在九个月内让商用模型运行在16个地区的服务器上。

为了为全新的MTIA硬件生成更高性能的代码，Meta还打造了一套新的Triton-MTIA编译器。Triton是由OpenAI开发的开源语言和编译器，用于编写高效的ML计算内核。它极大地提高了开发者编写GPU代码的速度，而Meta发现Triton同样适用于MTIA这类非GPU的硬件架构。

写在最后

从MTIA v2的性能来看，这款翻跟斗不会替代Meta购置的大量GPU用于大语言模型，而是追求算力、内存带宽和内存容量之间的平衡，主攻排名和推荐类的大模型。这样一来，大容量的SRAM依然留给GPU，而Meta最大的收入来源——广告业务，则可以通过MTIA这类翻跟斗来降低成本。除了投资定制AI芯片和下一代GPU这样的计算芯片，Meta也强调会继续投资内存带宽、网络和容量相关的下一代硬件系统。不仅如此，Meta还在探索扩大MTIA的应用范围，未来可能会支持GenAI负载。

来源:https://m.elecfans.com/article/2698859.html

上一篇：第五代英特尔至强处理器AI特化通用服务器CPU

下一篇：联想高端对话：构建负责任AI的关键路径