Meta自研CXL芯片复用退役DDR4降低AI服务器成本25%
Meta自研Vistara芯片:让DDR4内存重获新生,AI推理服务器成本降低25%
近日,Meta公开发布了一篇技术论文,详细介绍了其自主研发的一款名为Vistara的CXL ASIC芯片。简单来说,它的核心目标非常务实:将退役服务器上的DDR4内存重新整合到最新支持DDR5内存的AI服务器中,使其继续发挥作用。最终成果是,不仅延长了内存硬件的物理使用周期,还在部分AI推理业务场景下,使所需服务器数量最高减少了25%——这直接意味着硬件采购成本最多可降低25%。
这个方案表面上看只是内存资源的二次利用,但其背后折射出的是Meta对CXL(Compute Express Link)生态系统的深度布局,更关键的是,它标志着AI时代的数据中心基础设施正在从单纯的“算力竞争”转向更深层次的“系统架构竞争”。
问题:AI服务器升级,DDR4却成了“鸡肋”
AI服务器的迭代速度近年来几乎可以用“光速”来形容,从DDR4内存平台到DDR5内存平台的切换就是最典型的例证。像基于英特尔Xeon 6、AMD Turin以及最新AI GPU平台的新一代服务器,已经全面拥抱DDR5。与此同时,大量上一代服务器仍然配备着DDR4内存。
这里有一个很尴尬的现实:服务器通常5到7年就会退役,但服务器级的DRAM芯片物理寿命却能达到10到14年。也就是说,大量性能依然可靠的DDR4内存,会因为服务器退役而直接被闲置甚至报废——这简直是硬件界的“浪费典范”。
Meta在论文中毫不讳言:它在全球拥有数百万台服务器,其中大约40%的服务器受限于内存容量,已无法再承载新的AI工作负载。另一边,又有海量的DDR4内存处于“空转”状态。如果强行把旧DDR4内存装到新服务器上,又会因为带宽低、延迟高,严重拖累整体性能。更何况,在服务器内存芯片紧缺、价格飙涨的大背景下,这种浪费对于一家每年资本支出高达数百亿美元的互联网公司来说,无异于在烧钱。
解法:自研Vistara ASIC,让DDR4重新“上岗”
为了解决这个矛盾,Meta的思路非常直接:利用CXL技术,把退役服务器中的DDR4 DIMM挂载到新服务器上,作为扩展内存。这样就能实现近乎零成本的容量扩展(靠复用)、性能提升(更大内存)以及降低碳足迹(延长硬件寿命),最终提升整体运营效率。
但Meta并没有直接采购现成的商业化CXL方案。原因在于,它认为市面上现有的方案存在三个核心痛点:
- 捆绑了DRAM与控制器,导致无法直接复用现有的DDR4 DIMM。
- 不支持DDR4,根本无法利用退役服务器里大量的DDR4资产。
- 功耗高、成本高,不适合超大规模数据中心部署。
所以,Meta的决定很干脆:自己设计一颗专用的CXL内存扩展ASIC,命名为Vistara。这颗芯片就是专门为复用DDR4 DIMM而生的。
根据论文披露的信息,Vistara的核心作用非常清晰:通过符合CXL 2.0/1.1标准的PCIe Gen5 x16接口,把DDR4内存转换为CXL内存资源,供给最新的DDR5服务器直接调用。它的主要技术特点包括:
- 兼容CXL 2.0/1.1协议
- 支持PCIe Gen5 x16
- 集成两个72-bit DDR4内存通道
- 支持最高DDR4-3200
- 单颗ASIC最高可连接256GB DDR4(采用64GB DIMM)
- 支持RS(36,32),2-symbol correction,x4 chip-kill内存纠错
- 延迟约等于50ns
- 内置三颗RISC-V处理器,负责安全、控制、引导启动
- 接口支持CCI、SMBus、PCIe固件更新
- 单颗ASIC功耗约9瓦
核心功能可以概括为:通过PCIe Gen5 x16接口和CXL 2.0协议,将旧的DDR4内存转换为新服务器可直接调用的共享内存池。每颗Vistara芯片支持两个DDR4通道,最高可挂载256GB内存,功耗仅约9W。简单来说,Vistara就是一座桥梁,连接了DDR4和当前基于DDR5的AI服务器,让原本只能用于老服务器的DDR4内存,重新成为AI服务器可以访问的共享资源。
不只是扩容:更是建立共享内存池
相比传统服务器“每台机器独占内存”的架构,Meta的CXL ASIC方案更进一步,它构建了一套基于CXL的共享内存池(Memory Pool)。论文中给出了一个具体的部署案例:在一台部署了两颗Vistara芯片的MemServer平台中,可以将768GB的DDR5本地内存与256GB的DDR4扩展内存通过CXL连接整合,最终实现总计1TB的内存容量,而CXL扩展部分的总功耗仅约50W。
在性能上,Vistara的CXL内存峰值带宽约为48GB/s,空闲延迟约250ns,这远远低于本地DDR5的614GB/s和130ns。但论文特别指出,在实际生产环境中,CXL带宽利用率通常低于10%——因为软件栈只会把“冷数据”放在CXL内存上,绝大多数热点访问仍然会命中本地DRAM。因此,带宽和延迟的差距对实际性能影响微乎其微。
Meta认为,这种架构的最大优势在于:不同的AI任务可以按需动态共享内存,而不是提前为每台服务器预留大量冗余容量。对于大语言模型推理而言,许多请求并不会长期占满全部内存,动态共享可以显著提升整体利用率。
透明分层:应用无感
自研的Vistara芯片只是硬件基础,Meta还基于Linux内核的TPP(透明页面放置)和TMO(透明内存卸载)机制,构建了一套自动化的内存分层系统。这套系统可以实时追踪每个内存页面的访问频率。热页(被CPU频繁访问的内存页面)会自动保留在本地DDR5,而冷页(被CPU很少或极少访问的内存页面)则会静默迁移到CXL上的DDR4。整个过程对上层应用完全透明,无需修改任何代码。
论文特别强调,此前学术界一直担心TPP机制会带来较大的CPU开销。但Meta在生产环境中的实际测试显示,TPP的CPU开销不到0.5%,远低于预期。Vistara的尾延迟表现也相当稳定,并未出现此前FPGA测试中报告的那种不稳定的现象。对于延迟敏感型工作负载,Meta还提供了基于cgroup的灵活“退出机制”,允许特定任务直接禁用CXL内存,确保关键业务不受影响。
成果:AI推理服务器最高可减少25%
论文显示,Vistara是Meta首款软硬件协同设计的CXL内存扩展平台,目前已在百万级服务器规模的生产环境中部署,覆盖了缓存、数据仓库、ML推理、开发基础设施等多样化的工作负载。实际效果相当亮眼:
- 缓存服务
- CacheA服务:缓存容量从680GB扩至890GB,持续QPS提升33%,缓存对象的保留时间从1分钟延长到5-10分钟。
- CacheB服务:平均查询延迟降低了29%,2.3%的缓存命中从闪存转移到了内存,有效延长了SSD寿命。
- 数据仓库(Spark等)
- Spark执行器密度提升33%,OOM(内存溢出)事件减少33%。
- Cosco分布式Shuffle服务:计算容量降低30%,但MIPS反而提升了11%。
- 开发基础设施(DevInfra)
- 每台物理服务器可运行的开发者虚拟机数量增加33%,整体服务器需求减少15%。这意味着在同等开发效率下,硬件采购成本显著降低。
- ML参数服务器
- 在5.1TB生产级推荐模型的推理服务中,服务器需求减少25%,吞吐量提升4%。
- 当模型规模扩展到20TB时,吞吐量提升达4-12%,服务器需求持续减少20-25%。
结论:数据中心竞争进入“系统架构时代”
Vistara方案的核心价值,绝不仅仅是省了几颗内存条的钱。它在更深层次上说明了两个重要趋势。
第一,CXL技术的规模化验证。 CXL标准问世已经有六年了,业界一直缺乏大规模生产部署的实证数据。Meta用百万级服务器的真实场景证明,CXL内存分层在工程上是可行的、可靠的,而且收益显著。学术界关于CXL尾延迟和TPP开销的担忧,被生产数据一一反驳。
第二,超大规模云厂商正在成为芯片设计的主角。 Vistara不是一颗通用的芯片,而是围绕Meta特定的基础设施需求——最大化复用DDR4资产,来量身定制的产物。这种“工作负载定义芯片”的模式,正在成为微软、谷歌、亚马逊等云巨头的共同选择。
从更宏观的视角看,Vistara折射出AI时代数据中心设计理念的根本转变:资源正在从“整机绑定”走向“解耦池化”。CPU、GPU、内存、存储不再需要同步淘汰、同步升级,而是可以通过CXL这类开放互联技术,形成可按需调度的独立资源池。这不仅能延长硬件生命周期,更能从根本上提升基础设施的投资回报率。
未来的数据中心竞争,已经不仅仅是算力峰值性能的比拼,更是系统架构、互联技术与资源管理能力的综合较量。Meta的Vistara,为这场竞赛写下了一个务实而有力的注脚。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
泰坦军团战魂KG277VPLUS双模显示器27英寸4K165Hz/520Hz仅1888元
泰坦军团“战魂KG277VPLUS”27英寸显示器发售,支持4K165Hz与FHD520Hz双模切换,定价1888元。采用FastIPS面板,97%DCI-P3色域,配备升降支架及双HDMI2 1和双DP1 4接口。
苹果调价影响消费需求 2026年全球笔电出货量或降13.6%
迈入2026年,DRAM与NAND闪存的供应持续紧张及价格不断攀升,正逐步传导至终端消费市场。可以预见,下半年市场环境将更加严峻。上半年多家PC厂商已陆续上调产品定价,最终连苹果也不得不跟进,宣布提升iPad、Mac及家居设备的价格,以应对存储成本的快速上涨。 TrendForce分析指出,苹果全面
苹果iPhone 18 Pro自研C2芯片或不支持5G毫米波
苹果自研C2芯片仅支持Sub-6GHz,不支持5G毫米波。因此,美版iPhone18Pro继续采用高通基带方案以支持毫米波,而其他地区版本则搭载苹果自研C2芯片。这一差异将导致在毫米波覆盖的市场中,用户峰值速率可能显著低于美版用户。
纳睿雷达推出睿宸超精细化短时临近AI气象大模型
纳睿雷达近日释放了一项重磅成果。2026年7月1日,公司正式对外发布了两款自主研发的全新产品:一款是“WDSPT0152型”S波段全极化多功能有源相控阵雷达,另一款则是名为“睿宸”的超精细化短时临近AI气象大模型。从产品战略来看,此次发布直指气象监测与灾害预警领域的技术制高点。 先来看这款S波段雷达
南航国际创新港一期交付 四大专业园区打造空天产业强磁场
近日,南京航空航天大学与六合区深度合作的标杆项目——南航国际创新港一期正式交付投用。两个地块陆续启用,成功串联起高校科研能量、地方产业载体与市场创新主体,为南京打造全国领先的航空航天产业创新中心、助力江苏布局商业航天全产业链,提供了坚实的物理支撑。 该创新港一期位于六合区雄州街道,分为3号和4号两个
- 日榜
- 周榜
- 月榜
相关攻略
2026-07-03 12:53
2026-07-03 12:53
2026-07-03 12:53
2026-07-03 12:53
2026-07-03 12:52
2026-07-03 12:52
2026-07-03 12:52
2026-07-03 12:52
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

