小米MiMo首次公开模型推理系统全链路优化降价99%
2025年5月27日,小米正式宣布旗下MiMo-V2.5系列API实现永久降价,最高降幅达99%,且不再区分输入长度。同日,小米还公开了MiMo-V2.5系列模型的推理系统全链路优化方案,为业界带来技术细节的深度解读。

简而言之,此次大幅降价的底气源于对整个推理栈的系统性重构。研发团队围绕Hybrid SWA + MoE + 多模态这一复合架构,对KVCache管理、分级缓存、前缀缓存、调度策略以及Prefill和Decode的完整链路进行了全面“大手术”。最终成果是:KVCache存储压缩至同类方案的七分之一左右,长序列场景下的推理成本大幅下降——这正是本次降价的核心技术基础。
这也是业内首篇全面覆盖Hybrid SWA + MoE + 多模态组合架构的大规模工程落地方案。需要强调,模型能力没有任何缩减——精进的是推理系统工程本身:同一模型、相同硬件下,实现了更高吞吐、更低延迟,从而能服务更多用户。

附主要内容如下:
1、为什么选择 Hybrid SWA 架构?
大模型推理的核心开销,归根结底在于KVCache。模型每生成一个token,都必须将全部历史上下文以键值对形式缓存在GPU显存中。上下文越长,缓存越大,能同时处理的请求就越少,单次推理成本自然攀升——这是所有大模型服务都难以绕开的经济约束。
MiMo-V2.5-Pro的设计思路,正是从架构层面打破这一约束。在70层Transformer中,仅10层采用Full Attention(完整注意力),其余60层均使用Sliding Window Attention(滑动窗口大小128 token)。换言之,绝大部分网络层只需记住最近128个token的信息,整体KVCache存储需求便降至全Full Attention方案的约七分之一。
不仅如此,SWA层的注意力计算量也从全序列缩减至窗口大小,Prefill阶段的计算成本同样降至七分之一。而Decode阶段的延迟与KVCache读取量直接挂钩,在长序列场景下,这种存储压缩几乎等价于推理成本等比例下降。两方面叠加,Hybrid SWA在Prefill和Decode阶段均能受益。短文场景下性价比相近,序列越长,推理成本优势越明显。
但话说回来,架构上“应该省”与线上“真的省”之间,隔着一整套推理系统的适配工程。MiMo-V2系列刚上线时,主流开源推理框架对SWA的支持并不完整——部分早期实现本质上仍用“存储Full KVCache”的代价来兼容SWA。Hybrid SWA给缓存命中判定、前缀匹配、双语义一致性维护带来了额外复杂度;在真实系统中,多级存储的数据搬运、异步预取以及分布式缓存状态的一致性问题,都让理论收益难以直接落地。因此,必须让推理系统真正“理解”Hybrid SWA的存储特性,将每一项理论优势逐一兑现为工程收益。
2、工程化实践,从“理论上省”到“真的省”
明确了Hybrid SWA在架构层面“能省多少”后,接下来的挑战是:如何让推理系统真正适配其特性,将架构优势转化为真实的效率提升?
整个工作围绕三个递进问题展开:缓存能否真正省下来?省下来的空间能否真正用起来?最终的生成速度能否真正快起来?
KVCache系统重构:让缓存真正省下来
要兑现Hybrid SWA的效率优势,第一步是让KVCache管理系统真正区分两种截然不同的缓存需求。
具体做法是双池分治。传统推理系统会为所有层统一分配KVCache空间,按最大需求配置。我们把KVCache拆分成Full KV Pool和SWA KV Pool两个独立池:Full KV Pool按需增长、长期保存;SWA KV Pool只按窗口大小配置容量,采用环形缓冲区设计,支持基于窗口的独立淘汰,存储严格限制在O(W)规模。对上层调度器和前缀树,仍暴露统一的序列视图,由Full Attention索引作为权威索引,并维护到SWA的映射关系。这一设计使KVCache的容量效率直接提升了约7倍。而且,SWA层的KVCache预取可在layerwise粒度实现完美重叠,Cache读取成本几乎降至零。
存储省下来了,下一个问题就是:已经算过的结果能否复用?这取决于前缀缓存是否能在SWA模式下正确工作。
传统前缀缓存的匹配规则建立在“token序列相等 → KV也相等”这个假设上——但在SWA模式下,该假设被打破。前缀树节点的逻辑生命周期与SWA KV的物理生命周期不一致,一个节点对应的SWA KV可能只剩尾部一小段,甚至已全被释放,传统规则就会给出“伪命中”。我们从三个地方改造了前缀树语义:将匹配规则升级为“窗口安全长度”(尾部至少W个token还有有效slot);将淘汰路径与请求生命周期绑定,确保SWA池占用恒定在窗口量级;每个节点同时承载Full Attention段索引与SWA段映射,支持独立淘汰策略。改造后,线上前缀缓存命中率平均达到93%,高频用户甚至超过95%。
解决了“算过的能复用”之后,还有一个现实问题:用户对话有时间间隔,缓存放在显存里太贵,丢掉又要重算。
为此,小米存储团队自研了GCache——一套同时支持GPU显存、CPU内存和NVMe SSD的高性能分布式缓存系统。KVCache按访问热度在三级间自动流转:活跃数据驻留显存,冷数据降级到内存或SSD,用户返回时快速恢复。GCache优先在GPU机器上混部,接管节点的部分内存与自带SSD,额外存储成本为零。通过RDMA通信,实现了单进程170GB/s的读吞吐和280μs的延迟。结合SWA极小的存储占用,相同成本下能承载的缓存量成倍提升,KVCache被迫淘汰的压力也大幅降低,留存窗口显著延长——缓存命中率自然随之提高。
综合这三项优化:SWA把缓存体积压到七分之一是容量层面的收益,前缀缓存重构和GCache带来的高命中率是复用层面的收益。两者相乘,才是Prefill阶段实际计算成本的真实曲线。
调度与Prefill优化:让省下的空间真正用起来
缓存省下来了、复用率也上去了,但调度和计算链路如果不做相应适配,省出来的显存空间和算力余量就只是“纸面富余”。
在Agentic场景下,请求长度差异极大。传统FCFS调度不区分命中率高低、计算量大小,导致缓存命中率高但实际计算量小的请求被长请求阻塞。我们在Router侧实现了KVCache亲和调度——优先选择已缓存当前请求前缀的节点,同时兼顾负载均衡,L2缓存命中率提升了约25%。同时引入了计算量感知优先调度,优先处理真实计算token数更少的请求,辅以等待时间惩罚机制来避免饥饿。最终TTFT P90降低了30%。
调度把请求送到了正确的节点,接下来就是Prefill链路本身的计算效率。
SWA KVCache优化使GPU卡显存余量大幅增加,我们把Expert Parallelism缩减到了原来的二分之一——跨机通信更少、负载差异更小、每台机器承载的expert更多,端到端Prefill性能提升了约40%。同时采用三级长度分桶策略(0–64K / 64K–256K / 256K–1M),将负载特征相近的请求聚合调度,避免短请求被长请求拖慢,显著提升了线上Prefill的平均吞吐。
Decode加速与多模态优化:让生成速度真正快起来
Prefill完成后进入Decode阶段——逐token输出。此阶段的核心瓶颈与Prefill不同:不是计算量大,而是显存被KVCache占满,导致batch size无法扩展,GPU算力打不满。
Decode端KVCache完整支持SWA后,有效容量提升了近5倍,结合CUDA Graph显存调优与PD分离中的预分配优化,单节点并发能力显著增强。MiMo-V2.5原生支持3层MTP(Multi-Token Prediction)加速输出——模型每步并行预测多个候选token,验证通过后一次性输出。通过在Prefill阶段引入MTP并完成HiCache多级适配,前128 token的加速比达到2.3倍,128–256 token达到1.5倍。Agentic场景下,大部分输出序列较短,这个优化直接降低了真实的Decode成本。
文本推理之外,多模态推理链路同样是用户体验的关键环节。
MiMo-V2.5系列支持视觉、音频、视频跨模态理解。Encoder支持跨请求组Batch,多个请求的image/audio融合为一次Forward,再按请求切分返回;图片预处理迁移至GPU,消除大图场景下的CPU瓶颈;视频解码切分为多chunk、多线程并行处理,1小时视频的端到端延时从156秒降至23秒。通过一致性哈希和机内共享内存实现Embedding缓存共享,整体Encoder吞吐提升至2倍。
3、让 Hybrid SWA 被更多人用起来
MiMo-V2.5系列的推理效率,并非源自某一环节的单点突破,而是多维度协同优化的结果。Hybrid SWA让Prefill与Decode同时受益,但未经充分优化的KVCache实现,反而会在各环节抬高成本。
围绕这个核心矛盾,我们系统性重构了KVCache管理、分级缓存、前缀缓存树、调度策略及Prefill/Decode链路,攻克了SWA KVCache的核心工程问题,并经线上真实场景检验,最终将其理论效率优势真正兑现到生产环境。再结合MoE配置与多模态推理的系统性优化,整体线上推理服务性能得到了显著提升。
至此,Hybrid SWA才真正展现出它应有的样子:一个在长文推理上兼具强度与效率的模型架构。
作为首篇全面覆盖Hybrid SWA + MoE + 多模态组合架构的大规模工程落地方案,我们将由此节省的成本以API降价的形式回馈用户。同时,我们已把部分优化以PR形式回馈SGLang开源社区,并将持续推进更多开源计划。希望让工程优化不再成为门槛,让这类兼具强度与效率的复合架构,得到更广泛的探索与应用。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
天猫超市香港上线明日达服务
天猫超市正式登陆香港,提供下午4点前付款次日达服务,首批上线超8万种商品。年底自提点将增加40%并引入无人自提模式,服饰类商品支持本地退货,为香港消费者带来便捷购物体验。
vivo S60元气版发布 均衡无短板高性价比轻旗舰
要说vivo最近这波产品布局,确实挺有看头。S60系列一口气推出了两款机型——标准版和元气版,分工非常清晰。标准版主打影像轻旗舰体验,而元气版则精准卡位高性价比手机市场。价格控制得比较紧,但整机质感与核心体验并没有敷衍。配置安排合理,功能取舍也经得起推敲,整体表现称得上均衡扎实。外观延续了S6系列的
京东折扣超市淮南万达开业填补硬折扣零售业态空白
6月初,京东折扣超市在安徽市场再落一子——全国第十一家门店正式入驻淮南田家庵区万达广场,计划于6月底开业。这不仅是淮南首家硬折扣超市,也标志着当地在硬折扣零售业态上实现了从无到有的突破。回顾京东折扣超市的发展历程:自去年8月全国首店开业以来,始终坚持“大店模式、全品类覆盖、高性价比”的差异化竞争策略
英伟达黄仁勋称AI未减少岗位 软件工程师增多
6月1日,在2026台北国际电脑展主题演讲中,黄仁勋抛出了一个核心判断: "有用的AI "时代已经来临。他直言,如今的token就是利润单位,AI正逐步演变为GDP的 "生成器 "——而软件工程师的数量,非但没有缩减,反而呈现出持续增长的趋势。针对外界普遍担忧AI会取代工作岗位的观点,黄仁勋毫不客气地予以反
AMD官宣AM5平台支持延至2029年覆盖Zen 4
台北电脑展前夕,AMD扔出了一颗重磅冲击波:AM5桌面平台的支持周期,正式延长到了2029年。这意味着什么?简单来说,从2022年首发的Zen 4架构处理器算起,直到未来的Zen 7,你都可以继续使用同一块AM5主板。升级CPU这件事,不再需要绑着换主板、换内存、甚至换硬盘,流程一下子清爽了许多。其
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题


