Moonshot AI论文解密:KVCache革新如何重塑AI商业模式与成本效益
Kimi突破性进展:跨数据中心大模型推理,重塑长文本处理新范式
在长上下文处理技术领域持续引领创新的Kimi,近日于系统架构层面再次实现重要突破。研究团队聚焦于大模型推理服务中长期存在的核心挑战——跨机房资源调度效率问题,提出了一套开创性的解决方案。
该方案被定义为Prefill-as-a-Service(预填充即服务,简称PrFaaS)。其关键性创新在于,首次实现了KV Cache(键值缓存)在跨数据中心环境下的可靠传输,从而将大模型推理流程中的Prefill(预填充)与Decode(解码)两个计算阶段,在硬件层面进行彻底解耦,允许它们部署于不同地域、不同架构的计算集群之上。
这一突破意味着什么?简而言之,Prefill与Decode任务从此能够实现“地理分离式”协同工作。该架构尤其适用于处理海量长文本场景,上下文长度越大,其展现出的性能增益与成本优化效益就越显著,堪称专为长上下文应用而生的系统级解决方案。
此项由月之暗面联合清华大学郑纬民院士、武永卫教授团队共同完成的研究,通过了严谨的内部生产环境验证。基于1T参数规模的混合注意力模型进行实测,PrFaaS-PD架构取得了卓越的性能数据:与传统同构部署方案相比,系统整体吞吐量提升了54%,P90延迟显著降低了64%;即便相较于未进行智能调度的基础异构方案,吞吐量仍能实现32%的有效提升。
更为重要的是,跨数据中心传输KV Cache所需的峰值网络带宽仅为13Gbps,远低于当前100Gbps商用以太网的普遍上限。这有力证明了,利用标准的商用网络即可稳定支撑此类跨域调度架构,极大地降低了工程化落地与大规模部署的技术门槛。
为何需要突破数据中心边界?
将Prefill与Decode阶段进行分离部署,现已成为优化大模型推理服务的行业共识与标准实践。然而,这种分离也引入了一项关键约束:KV Cache的高效传输严重依赖于高带宽、低延迟的RDMA网络,这导致两个阶段被强制绑定在同一个RDMA网络域内,无法实现真正意义上的物理分离与资源独立。
由此产生了一个现实的资源配置矛盾:最适合执行计算密集型Prefill任务的高性能算力芯片(如H200),与最优处理带宽密集型Decode任务的芯片(如H20),往往分布于不同的数据中心或可用区。若强行将它们部署于同一机房,将导致硬件资源配置僵化,难以灵活应对动态业务负载。
在线服务流量存在天然的波动性。固定的硬件配比极易引发资源利用率失衡——部分计算单元排队等待,而另一些则处于空闲状态,最终导致整体算力利用率低下,成本效益受损。
造成这一困境的根本原因在于KV Cache面临的“带宽墙”。研究团队提供了量化分析:以MiniMax-M2.5这类典型的密集GQA架构模型为例,在处理32K长度上下文时,单个推理实例生成KV Cache的速率高达60Gbps。而跨数据中心以太网的典型带宽仅在10-100Gbps范围,试图用常规网络承载如此高的数据流,无异于杯水车薪,难以维系。
因此,为确保推理流程流畅、避免引入额外延迟,传统的PD分离架构只能依赖RDMA网络进行高速通信。这也构成了其无法突破单一数据中心部署模式的核心技术瓶颈。
转机源于新一代混合注意力架构的兴起。近期,包括Kimi Linear、Qwen 3.5、MiMo-V2-Flash、Ring-2.5在内的众多先进模型,均采用了“线性注意力+全注意力”的混合设计范式。在此架构下,线性注意力层仅生成固定大小的循环状态,其大小不随上下文长度增长而膨胀;仅有全注意力层会产生与长度成正比的KV Cache。
效果是显著的。在32K上下文长度下进行对比:
- MiMo-V2-Flash模型的KV吞吐量降至4.66Gbps,较MiniMax-M2.5降低了13倍;
- Qwen3.5-397B模型的KV吞吐量为8.25Gbps,相比同等规模密集模型的33.35Gbps,降低了4倍;
- Ring-2.5-1T模型通过MLA压缩技术与7:1的混合比例,整体KV内存节省了约36倍。
可以说,“线性注意力+全注意力”混合架构成功地将KV Cache的传输需求,从必须依赖RDMA的高带宽级别,降低至普通以太网即可满足的水平。实现跨数据中心的PD分离,已从理论构想转变为具备工程可行性的技术路径。
破局之道:深度解析PrFaaS系统架构
当然,仅有模型架构的创新是远远不够的。要将“技术可行”转化为“生产可用”,需要一套精密、鲁棒的系统设计。这正是清华大学与月之暗面团队提出PrFaaS架构的核心理念。
PrFaaS的核心设计思想直观而高效:将长上下文请求的Prefill计算任务,智能地卸载至由算力密集型芯片(如H200)构成的独立专用集群完成。随后,将生成的KV Cache通过标准以太网传输回离用户更近的本地PD集群,进行后续的Decode生成。此举使得两个阶段能够根据各自的计算特性,灵活选用最具性价比的硬件资源。
具体实现机制如下:系统设定一个动态调整的长度阈值t。对于短请求(未缓存的上下文长度≤t),整个推理流程仍在本地PD集群内完成。只有当请求的未缓存长度超过阈值t时,才会被路由至专用的PrFaaS集群进行Prefill处理。该阈值t并非静态值,而是根据实时网络带宽状况与请求长度分布进行动态优化,以实现系统整体效率最大化。
整个PrFaaS架构由三个协同工作的核心子系统构成:
第一,计算层。 实现硬件资源的“专精特新”。PrFaaS集群配置H200等高端算力芯片,专门攻克长上下文Prefill这一计算密集型任务;而本地PD集群则采用H20等带宽优化型芯片,专注于Decode及短请求的高并发处理。两类硬件集群可实现独立的弹性伸缩,彻底摆脱了强制配对的资源束缚。
第二,网络层。 采用分层网络设计。集群内部仍使用RDMA网络保证超低延迟通信;而跨数据中心之间,则通过VPC或专线,利用通用的商用以太网传输KV Cache。这种设计显著降低了跨机房、跨地域部署的复杂性与成本。实验数据表明,100Gbps的VPC带宽已完全满足传输需求。
第三,存储层。 这是架构设计中极具巧思的一环。团队设计了一套混合前缀缓存池,将KV Cache分为两类进行管理:一类是prefix-cache块,用于集群内部的高效复用,必须满足块对齐条件才能命中;另一类是transfer-cache块,专门用于跨集群传输,具有临时性,使用后即被释放,不占用宝贵的长期存储资源。
为何采用此种混合管理策略?根源在于混合注意力模型生成的KV Cache本身就是异构的。线性注意力层产生的循环状态是请求级别的,大小固定,必须完全匹配才能复用;而全注意力层产生的KV Cache是块级别的,支持部分前缀匹配。统一的混合池化管理机制,既能最大化本地缓存的复用效率,又能灵活支撑跨集群的传输需求。
此外,为保障生产级服务的稳定性与高可用性,PrFaaS还设计了一套双时间尺度的智能调度算法。简要来说,该系统在短时间尺度(毫秒级)进行基于实时带宽与缓存状态的动态路由决策;在长时间尺度(分钟级)则根据宏观流量模式的变化,动态地重新分配与调整计算资源。
短期调度器会持续监控PrFaaS集群的出口带宽利用率,一旦接近预设阈值,便自动调高长度阈值t,减少跨中心传输的请求数量。对于携带前缀缓存的请求,调度器会综合评估缓存命中位置与当前网络状况,做出最优的路由选择。
长期调度器则负责观测各处理阶段的队列深度与资源利用率。当监测到Prefill阶段成为性能瓶颈时,系统能够动态地将本地PD集群的部分节点从Decode角色切换为Prefill角色;反之亦然。这种弹性的资源重分配机制,使系统具备自适应性,能够平滑应对流量模式的缓慢变迁,始终保持高效率运行。
从蓝图到现实:工程可用性全面验证
任何卓越的架构设计,最终都需通过严苛的工程实验来验证其可行性。研究团队基于真实的生产环境配置,设计了一套完整的对照实验,精准复现了异构硬件、跨域网络与真实长上下文流量交织的复杂场景。
实验采用团队内部自研的1T参数混合注意力模型,其架构设计与Kimi Linear对齐,采用7:1的线性注意力与全注意力混合比例,在确保模型强大能力的同时,实现了对KV Cache的高效压缩。
硬件配置层面,采用了典型的异构组合:负责处理长上下文Prefill的PrFaaS集群部署了32张H200 GPU;本地PD集群则配备了64张H20 GPU,专注于Decode任务与短请求的快速响应。
网络环境层面,通过VPC对等连接模拟跨数据中心互联,提供了约100Gbps的跨集群带宽,这与主流云计算服务商的网络互联方案完全一致。
实验负载采用了截断对数正态分布来模拟真实世界的请求长度,均值约为27K tokens,高度贴近实际长上下文服务的流量特征。
实验结果充分验证了PrFaaS-PD架构的优越性。
在核心性能指标方面,与硬件规模相当的传统同构PD集群相比,PrFaaS架构将服务吞吐量提升了54%;即便与未引入智能调度的简单异构部署方案相比,吞吐量也实现了32%的提升。
在关乎用户体验的延迟指标上,优化效果更为突出,P90首词生成时延(TTFT)降低了64%。这主要归功于长请求被卸载至专用集群处理,避免了与短请求在本地争夺Prefill计算资源,从而极大地缓解了排队阻塞问题。
最令人鼓舞的,是工程可行性的关键数据。PrFaaS集群的平均出口带宽占用稳定在13Gbps左右,在100Gbps的总链路带宽中仅占13%,留下了充沛的带宽余量。这表明KV Cache传输过程完全不会引发网络拥塞或关键链路抢占。实验最终证实,在混合注意力模型与PrFaaS智能调度的协同作用下,KV Cache的跨域传输完全可以摆脱对RDMA网络的依赖,标准的商用以太网即可提供稳定、高效的支撑。
论文核心团队介绍
这项重量级研究由月之暗面与清华大学紧密合作完成。论文作者包括Ruoyu Qin、Weiran He、Yaoyu Wang、Zheming Li、Xinran Xu、Yongwei Wu、Weimin Zheng、Mingxing Zhang(通讯作者)。
其中,Ruoyu Qin(秦若愚)、Weiran He、Yaoyu Wang、Zheming Li、Xinran Xu(许欣然)五位作者来自月之暗面。值得关注的是,这五位研究者同时也是Mooncake分布式推理系统架构的核心贡献者。
本文第一作者秦若愚,是清华大学计算机系MADSys实验室的在读博士研究生,师从通讯作者章明星副教授。章明星副教授长期深耕于KV Cache架构与分布式推理系统领域的研究。同时,秦若愚也在月之暗面参与研发工作,并且是Mooncake系统的第一作者。
月之暗面工程副总裁许欣然也位列作者名单之中。
来自清华大学的作者还包括武永卫教授和郑纬民院士。郑纬民院士是中国工程院院士、清华大学计算机系教授,长期致力于并行与分布处理、大规模数据存储系统等领域的科研与教学工作。
武永卫教授是清华大学计算机科学与技术系副主任、博士生导师,同时担任AI基础设施公司趋境科技的首席科学家。此前,月之暗面与清华大学MADSys实验室联合主导开源的Mooncake项目,趋境科技正是其核心共建与深度贡献单位。
参考文献链接:
[1] https://arxiv.org/abs/2604.15039
[2] https://madsys.cs.tsinghua.edu.cn/people/
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
采购场景智能体创建方案及落地应用产品详解
在采购数字化进程中,提及“智能体”或“人工智能”,许多人首先想到的是对话机器人。然而,若想获得可量化的投资回报(ROI),核心并非打造一个聊天助手,而在于将复杂的采购流程解构为清晰、可自动化的具体任务单元——例如供应商寻源、询价比价、订单创建、账务核对、单据审核及异常处理。关键在于,如何运用企业级智
OCR技术原理详解与行业应用场景全解析
OCR,也就是光学字符识别,常被看作是“让图片开口说话”的技术。它本质上是一套精密的算法系统,能将图像、扫描件中的文字信息自动抓取出来,转换成可编辑、可检索的数字化文本。这项技术的深层价值,在于它打通了物理文档与数字系统之间的“最后一公里”,是驱动政务、公安、金融、运营商等领域实现流程自动化与智能化
新质生产力概念解析:企业如何应用与发展指南
新质生产力是推动经济高质量发展的核心动力,它并非遥不可及的概念,而是一种以科技创新为主导、融合了数字化、智能化和绿色化特征的先进生产力形态。对于企业而言,深入理解和应用新质生产力,是实现降本增效、获取竞争优势和完成转型升级的关键路径。 一、新质生产力的三大核心特征 要准确把握新质生产力的内涵,我们可
腾讯混元Hy3大模型正式开源发布
在完成新一轮的人才布局与组织架构优化后,腾讯于4月23日正式揭晓并开源了其全新的AI大模型——混元Hy3 preview。这个模型被定位为“混元技术体系重构后的首个成果”,也是目前整个混元家族中智能水平最高的成员。此次升级的重点,聚焦于复杂推理、指令遵循、上下文学习、代码处理以及智能体能力等多个前沿
发票识别系统价格解析:成本构成与选型指南
发票识别系统的价格并非一个固定数字,其成本区间相当广泛,年度投入从几千元到几十万元都有可能。造成这种显著差异的核心因素,主要取决于您选择的部署方案、所需功能的复杂程度、对识别准确率的具体要求,以及服务商技术能力的强弱。当前,众多企业都在思考一个关键问题:如何确保资金投入精准高效,获得一套真正实用、精
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

