面包屑图标 当前位置: 首页
AI资讯
热点详情

小米MiMo首次公开模型推理系统全链路优化细节

AI热点日报
AI热点日报时间:2026-05-31
热点解读

小米公开MiMo-V2 5推理系统全链路优化,基于HybridSWA+MoE+多模态架构重构KVCache、分级与前缀缓存及调度策略,存储压缩至七分之一,实现最高99%降价,且模型能力未缩减。

5月27日,MiMo-V2.5系列API完成了一次不小幅度的永久降价——最高降幅达99%,且不区分输入长度。技术的最终价值,归根结底体现在被使用的广度上。让更多人能用上更好的模型,这始终是MiMo的使命。 那么,这次降价凭借的是什么?需要从技术层面进行拆解。 小米今天正式公开了MiMo-V2.5系列模型的推理系统全链路优化方案。团队围绕Hybrid SWA + MoE + 多模态这一复合架构,从KVCache管理、分级缓存、前缀缓存到调度策略以及Prefill/Decode链路,几乎重新梳理了整套推理栈。KVCache的存储压缩到了同类方案的约七分之一,这使得长序列场景下的推理成本大幅下降——这也是本次降价的核心技术基础。 这也是业内第一篇全面覆盖Hybrid SWA + MoE + 多模态组合架构的大规模工程落地方案。一个值得注意的细节是,模型能力没有任何缩减——精进的是推理系统的工程能力本身:同一套模型、同样的硬件,却能实现更高吞吐、更低延迟,最终服务更多的人。 --- ### 为什么选择Hybrid SWA架构? 大模型推理的核心开销,实际上来自KVCache。模型每生成一个token,都需要将之前全部的上下文以键值对的形式存储在GPU显存中。上下文越长,缓存越大,能并发运行的请求就越少,单次推理成本自然随之升高。这是当前所有大模型服务共同面对的核心经济约束,没有例外。 MiMo-V2.5-Pro的设计,从一开始就希望在架构层面打破这一约束。在总共70层Transformer中,只有10层使用Full Attention(完整注意力),其余60层改用Sliding Window Attention(滑动窗口,大小128 token)。绝大多数网络层只需存储最近128个token的信息,整体KVCache的存储需求因此降至全Full Attention方案的大约七分之一。 同时,由于SWA层的注意力计算量也从全序列压缩到了窗口大小,Prefill阶段的计算成本同样降至大约七分之一。Decode阶段的延迟与KVCache读取量正相关,在长序列场景下,这种存储压缩几乎直接等比例地压低了推理成本。两者叠加,Hybrid SWA在Prefill和Decode两个阶段均受益。短文本场景性价比相近,但序列越长,推理成本的优势就越明显。 不过,架构上“应该省”和线上“真的省”之间,隔着一整套推理系统的适配工程。MiMo-V2系列上线之初,主流开源推理框架对SWA的支持并不完整——早期的实现,实质上是以“存储Full KVCache”的代价来兼容SWA。Hybrid SWA显著增加了缓存命中判定、前缀匹配、双语义一致性维护的复杂度;在真实系统里,多级存储的数据搬运、异步预取与分布式缓存状态的一致性问题,使得理论收益很难直接落地。关键在于,需要让推理系统真正“理解”Hybrid SWA的存储特性,把每一项理论优势都逐一兑现成工程收益。 ### 工程化实践:从“理论上省”到“真的省” 明确了Hybrid SWA在架构层面“能省多少”之后,接下来的挑战很直观:如何让推理系统真正适配其特性,将架构优势转化为实实在在的效率提升?工作围绕三个递进的问题展开:缓存能否真正省下来?省下来的空间能否真正用起来?最终的生成速度能否真正快起来? #### KVCache系统重构:让缓存真正省下来 要兑现Hybrid SWA的效率优势,第一步是让KVCache的管理系统真正区分两种截然不同的缓存需求。 **双池分治。** 传统推理系统为所有层统一分配KVCache空间,按最大需求配置。我们将KVCache拆分为Full KV Pool和SWA KV Pool两个独立的池子:Full KV Pool按需增长,可长期保存;SWA KV Pool只按窗口大小配置容量,采用环形缓冲区设计,支持基于窗口的独立淘汰,存储严格限制在O(W)规模。对上层调度器和前缀树来说,仍暴露统一的序列视图,由Full Attention索引作为权威索引,并维护到SWA的映射关系。通过这一设计,KVCache的容量效率实现了大约7倍的提升。SWA层的KVCache预取可以在layerwise粒度上做到完美overlap,Cache的读取成本几乎降至零。 存储省下来了,下一个问题是:已经算过的结果能否复用?这取决于前缀缓存是否能在SWA模式下正常工作。 **前缀缓存树重构。** 传统前缀缓存的匹配规则建立在“token序列相等 → KV也相等”这一假设上——但在SWA模式下,这个假设被打破了。前缀树节点的逻辑生命周期与SWA KV的物理生命周期不一致;一个节点对应的SWA KV可能只剩尾部一小段,甚至已经完全被释放,传统规则会给出“伪命中”。团队从三个地方改造了前缀树语义:匹配规则升级为“窗口安全长度”(尾部至少有W个token仍有有效slot);淘汰路径和请求生命周期绑定,确保SWA池的占用恒定在窗口量级;每个节点同时承载Full Attention段索引与SWA段映射,支持独立的淘汰策略。线上前缀缓存的命中率平均达到93%,高频用户甚至超过95%。 解决了“算过的能复用”的问题之后,还有一个现实问题:用户对话有时间间隔,缓存放在显存里太贵,丢掉又得重算。 **GCache三级缓存。** 小米存储团队自研了GCache——一个同时支持GPU显存、CPU内存和NVMe SSD的高性能分布式缓存系统。KVCache按访问热度在三级之间自动流转:活跃数据驻留显存,冷数据降级到内存或SSD,用户返回时可快速恢复。GCache优先在GPU机器上混部,接管节点的部分内存与自带SSD,不增加额外存储成本。通过RDMA通信,实现了单进程170 GB/s的读吞吐和280微秒的延迟。结合SWA极小的存储占用,相同成本下能承载的缓存量成倍提升,KVCache被迫淘汰的压力大幅降低,留存窗口显著延长——缓存命中率自然随之水涨船高。 将以上三项优化综合来看:SWA把缓存体积压缩至七分之一,这是容量层面的收益;前缀缓存重构和GCache带来的高命中率,是复用层面的收益。两者相乘,才是Prefill阶段实际计算成本的真实曲线。 #### 调度与Prefill优化:让省下的空间真正用起来 缓存省下来了,复用率也上去了,但调度和计算链路如果跟不上,省出来的显存空间和算力余量就只是“纸面富余”。 **KVCache亲和与优先调度。** Agentic场景下,请求长度差异很大。传统的FCFS调度不区分命中率高低、计算量大小,导致缓存命中率高、实际计算量小的请求,很容易被长请求堵在后面。我们在Router侧实现了KVCache亲和调度——优先选择已缓存当前请求前缀的节点,同时兼顾负载均衡,L2缓存的命中率提升了大约25%。同时引入了计算量感知的优先调度,优先处理真实计算token数更少的请求,辅以等待时间惩罚机制来避免饥饿。TTFT的P90降低了30%。 调度把请求送到了正确的节点,接下来是Prefill链路本身的计算效率。 **EP缩减与分桶策略。** SWA KVCache优化使GPU卡显存余量大幅增加,团队将Expert Parallelism缩减到了原先的二分之一——跨机通信更少、负载差异更小、每台机器承载的expert更多,端到端Prefill性能提升了约40%。同时采用三级长度分桶策略(0–64K / 64K–256K / 256K–1M),将负载特征相近的请求聚合调度,避免短请求被长请求拖慢,显著提升了线上Prefill的平均吞吐。 #### Decode加速与多模态优化:让生成速度真正快起来 Prefill完成后,进入Decode阶段——一个token一个token向外生成。这一阶段的核心瓶颈与Prefill不同:不是计算量大,而是显存被KVCache占满,batch size无法扩展,GPU算力吃不饱。 **显存扩容与MTP投机解码。** Decode端KVCache完整支持SWA后,有效容量提升了近5倍,结合CUDA Graph显存调优与PD分离中的预分配优化,单节点并发能力显著增强。MiMo-V2.5原生支持3层MTP(Multi-Token Prediction)加速输出——模型每步并行预测多个候选token,验证通过后一次性输出。通过在Prefill阶段引入MTP并完成HiCache多级适配,前128个token的加速比达到2.3倍,128–256个token达到1.5倍。Agentic场景下大部分输出序列较短,这一优化直接降低了实际的Decode成本。 文本推理之外,多模态推理链路同样是用户体验的关键环节。 **多模态链路并行化。** MiMo-V2.5系列支持视觉、音频、视频跨模态理解。Encoder支持跨请求组Batch,多个请求的image/audio融合为一次Forward,再按请求切分返回;图片预处理迁移到GPU上,消除了大图场景下的CPU瓶颈;视频解码拆分成多个chunk、多线程并行处理,1小时视频的端到端延时从156秒降至23秒。通过一致性哈希和机内共享内存实现Embedding缓存共享,整体Encoder的吞吐提升至2倍。 ### 让Hybrid SWA被更多人用起来 MiMo-V2.5系列的推理效率,并非来自某一环节的单点突破,而是多维度协同优化的结果。Hybrid SWA同时使Prefill和Decode受益,但未经充分优化的KVCache实现,反而会在各个环节抬高成本。 围绕这一核心矛盾,团队系统性重构了KVCache管理、分级缓存、前缀缓存树、调度策略以及Prefill/Decode链路,攻克了SWA KVCache的核心工程问题,并经过线上真实场景的检验,最终将理论效率优势真正兑现到了生产环境中。再结合MoE配置与多模态推理的系统性优化,整体线上推理服务的性能得到了显著提升。 至此,Hybrid SWA才真正展现出它应有的样子:一个在长文推理上兼具强度与效率的模型架构。作为首篇全面覆盖Hybrid SWA + MoE + 多模态组合架构的大规模工程落地方案,团队将由此节省的成本以API降价的方式回馈用户。同时,一部分优化已经以PR的形式回馈给SGLang开源社区,后续还会持续推进更多开源计划——希望让工程优化不再成为门槛,让这类兼具强度与效率的复合架构得到更广泛的探索与应用。 --- *技术博客链接已整理于官方发布渠道。*
热点追踪提示词
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:小米MiMo首次公开模型推理系统全链路优化细节要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
来源:https://www.bestblogs.dev/article/c63fbd9f?utm_source=rss&utm_medium=feed&utm_campaign=resources&entry=rss_article_item
Xiaomi MiMo

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关热点
AI热点2026-05-31 09:46
HermesAgent与Dify谁更简单?私有化部署难度对比

HermesAgent通过Docker镜像打包所有依赖,一键部署,90秒内即可启动服务且免配置API密钥;Dify需手动设置数据库、存储等七类核心参数,依赖PostgreSQL与Redis中间件,故障排查需命令行操作,部署与维护门槛较高。

AI热点2026-05-31 09:45
用Dify搭建专属AI数据分析报告助手告别内卷

Dify是一款零代码大语言模型应用开发平台,通过拖拽节点即可构建AI工作流。用户只需三步:创建对话流应用、设计文档提取与LLM节点流程、上传CSV文件,即可获得可对话的数据分析助手。平台支持插件扩展,提升分析精度,但需注意大模型幻觉问题。该工具大幅降低数据分析门槛,助力科研效率提升。

AI热点2026-05-31 09:45
QClaw怎么生成Shell脚本和Bash命令?Linux运维自动化辅助方法

QClaw生成Shell脚本有四种方式:自然语言描述需求、调用脚本模板、CLI根据目标环境自动适配语法、Webhook触发动态编译并签名执行。支持中文描述生成带错误处理和跨环境兼容的Bash代码,模板库通过多发行版验证,CLI可裁剪语法兼容性,Webhook实现告警驱动的实时修复脚本生成。

AI热点2026-05-31 09:43
Dify调用firecrawl抓取单页信息的工作流节点设置详解

基于Dify工作流调用Firecrawl工具实现单网页自动化抓取,包含开始、单页面抓取、Markdown转换、结束四个节点。需在Firecrawl官网注册并配置APIKey,设置URL和输出文件名,结果格式为markdown。测试在国家标准化网站成功获取数据中心标准列表并输出可下载的MD文件。

延伸阅读