小米最强开源模型罗福莉发布 适配五款国产芯片性能超越DeepSeek
今天,国内大模型开源领域迎来一个重磅消息。小米正式开源了由罗福莉团队研发的MiMo-V2.5系列模型,采用宽松的MIT协议。这意味着无论是商业推理部署还是二次训练,都无需额外授权,为开发者提供了极大的便利。

▲MiMo-V2.5-Pro在Hugging Face的开源页面截图
实际上,该系列模型已于4月23日开启公测,包含MiMo-V2.5-Pro和MiMo-V2.5两款。它们不仅具备更强的智能体(Agent)能力,支持高达100万Token的上下文长度,而且在Token处理效率上也有显著提升,性能表现优异。
随着MiMo-V2.5-Pro完整基准测试结果的公布,小米方面宣称,其在GDPVal-AA(Elo)、Claw-Eval(pass^3)等多个关键测评中,表现超越了最新开源的DeepSeek-V4-Pro模型,也优于近期发布的Kimi K2.6等主流闭源模型,实现了综合性能的最佳表现。

▲MiMo-V2.5-Pro的最新测评成绩
更值得关注的是其生态布局的速度。开源首日,MiMo-V2.5-Pro便宣布已完成与阿里平头哥、亚马逊云科技、AMD、百度昆仑芯、燧原科技、沐曦、天数智芯等多家主流芯片厂商的接入适配。同时,该系列模型也同步完成了对SGLang和vLLM这两大主流推理框架的“Day 0”适配,确保了开箱即用的部署体验。
此外,小米还配套推出了两项生态计划:一是“百万亿Token创造者激励计划”,计划在30天内免费发放总计100万亿Token的权益;二是“Agent生态共建计划”,目前已与OpenCode、Hermes Agent、KiloCode等智能体框架厂商展开合作,共同构建繁荣的开发者生态。
一、模型技术细节公布,测评超越DeepSeek-V4
根据小米最新公开的模型卡信息,其迄今为止最强的模型MiMo-V2.5-Pro,是一款参数规模达到1.02万亿的混合专家模型,其中激活参数为420亿。它基于混合注意力架构,相比前代模型,在通用智能、复杂软件工程以及长序列任务处理方面,都有明显进步。
该模型继承了MiMo-V2-Flash的混合注意力机制和多标记预测设计。具体来说,局部滑动窗口注意力与全局注意力以6:1的比例交错使用,窗口大小为128个Token。在处理长上下文时,通过可学习的注意力池偏置技术,将键值缓存的存储需求降低了近7倍,同时保持了性能。其集成的轻量级多标记预测模块,采用密集前馈神经网络,不仅将输出吞吐量提升了约三倍,也加速了强化学习的部署流程。

▲MiMo-V2.5-Pro的模型架构及训练过程
在训练方面,模型使用了27万亿Token进行预训练,采用FP8混合精度,原生序列长度为32K,并可扩展至100万Token。后训练则遵循三阶段范式:首先是监督式微调,在精选数据对上建立基础的指令跟随能力;其次是领域专精训练,针对数学、安全、工具使用等不同领域,分别用强化学习优化特定的教师模型;最后是多教师策略蒸馏,让单个学生模型在各位专精教师的Token级指导下进行学习,最终将所有能力融合到一个统一的模型中。
再来看看MiMo-V2.5。这是一个3100亿参数的稀疏混合专家模型,拥有150亿激活参数,在48万亿Token上进行了训练。它的语言主干框架同样继承了混合滑动窗口注意力机制,并搭载了自研的预训练视觉与音频编码器,这两类编码器通过轻量化的投影模块实现跨模态融合。

▲MiMo-V2.5架构
它的训练过程更为细致,分为五个阶段:从多样化的文本预训练构建语言模型主干;进行投影层预热以实现多模态对齐;开展大规模多模态预训练;执行监督微调与智能体训练,并将上下文窗口从32K逐步扩展至100万Token;最后通过强化学习与多目标偏好蒸馏,进一步强化模型的综合能力。
从公布的测评结果看,MiMo-V2.5在Claw-Eval Text、Terminal-Bench 2.0、SWE-Bench Pro等多个基准测试中,成绩大幅超越了DeepSeek最新发布的DeepSeek-V4-Flash模型,展现出强大的竞争力。

▲MiMo-V2.5最新测评情况
二、开源首日,完成阿里平头哥沐曦等7家芯片厂商适配
模型性能是一方面,落地应用的便捷性同样关键。小米在开源首日便公布了广泛的芯片生态与推理框架适配情况,MiMo-V2.5-Pro已与多家主流厂商完成深度对接: 阿里平头哥基于自研的真武810E芯片及全栈AI软件栈实现了适配;亚马逊云科技则利用其Trainium2芯片与Neuron SDK+vLLM框架,做到了“开源即全球可用”;AMD通过其ROCm开源软件栈提供了“Day-0”级别的全面优化支持。 此外,百度昆仑芯通过底层算子优化与软硬件协同来保障运行效率;燧原科技基于自研的驭算TopsRider软件栈,在其L600产品上完成了全量适配;沐曦实现了从Triton语法到自家GPU指令集的端到端原生支持;天数智芯也达成了“Day 0”级深度适配。 除了芯片,MiMo-V2.5系列模型也同步完成了对SGLang和vLLM这两大主流推理框架的即时适配,为开发者提供了多样化的部署选择。
三、免费发放100万亿Token,已与Hermes Agent等合作
为了加速开发者生态的构建,小米同步推出了名为“MiMo Orbit”的计划,主要包括两部分。 其一是“百万亿Token创造者激励计划”。该计划面向全球AI开发者与用户,在30天内免费发放总计100万亿Token的权益。采取申请制,通过审核的申请者最高可获得包含16亿Credits的Max档位套餐。活动期限为北京时间2026年4月28日至5月28日。 其二是“Agent生态共建计划”。该计划旨在为全球智能体框架团队提供专项支持,包括提供限免的MiMo Token,并参与或赞助各框架平台的AI黑客松等共创活动。目前,小米已与OpenCode、Hermes Agent、KiloCode等多家智能体框架厂商展开了深度合作,共同推动AI应用生态的发展。
结语:多款国产开源模型“亮见”交锋
近期,大模型行业的开源竞赛日趋激烈。模型与国产及国际芯片的“Day 0”适配,已从一个宣传亮点转变为基本要求,推理效率和部署成本正成为下一阶段竞争的核心战场。同时,动辄百亿、万亿Token的免费激励,以及与Agent框架的生态共建,都清晰地表明,行业的竞争焦点正在从单纯的“拼参数规模”转向更实际的“拼应用生态与用户体验”。
值得注意的是,小米MiMo-V2.5-Pro在多项基准测试中直接对标并超越了DeepSeek最新开源的顶级模型,这无疑是在开源赛道上的一次正面“亮见”。这种高强度的竞争,有望倒逼整个行业更快地降低推理成本,并切实提升智能体在真实场景中的任务完成能力,最终受益的将是整个开发者生态和终端用户。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
防范Agent间接越狱攻击的工程实践可信动作清单
今天我们来深入探讨一个日益紧迫的现实挑战:当AI智能体(Agent)开始自主处理邮件、浏览网页、操作各类工具时,如何确保其行为不被恶意内容“带偏”?近期一篇题为《PlanGuard: Action-Level Guardrails for Language Agents via Reference
Java与LangChain4j实现RAG文档智能拆分提升检索质量
在AI驱动的RAG系统开发与后端面试中,文档切分策略是衡量工程深度的关键指标。简单回答“按固定字符数截取”往往暴露了项目经验的不足。业务场景中RAG的召回效果,数据预处理的质量占据了决定性因素。切片(Chunking)策略的优劣,直接为整个系统的召回能力设定了天花板。后续无论采用多么先进的大模型或精
Excel反向查找数据技巧:一句话快速匹配信息
本文目录 Excel反向查找的常见痛点 AI自动化处理效果预览 1 准备工作与数据要求 2 超简单的AI自动化解决方案详解 第1步:规范整理你的原始数据表 第2步:对目标文件下达清晰指令 第3步:一键验收并拓展同类应用 核心指令的底层逻辑与优势 更多可直接套用的实战场景 1 快速填充联系人电话
2026年新车盘点 8款车型上市续航超两千公里起价6万多
2026年的汽车市场,热闹非凡。当许多人的目光被比亚迪秦L牢牢吸引时,一份涵盖8款新车的清单悄然浮现,价格从6万多横跨至12万多,最长续航甚至达到了惊人的2150公里。这场混战,让选择变得前所未有的丰富。 燃油拥趸的新选择:2026款荣威i6 对于依然钟情于燃油车可靠与便利的消费者来说,2026款荣
福田汽车发布苍穹AI大模型 赋能商用车全场景智能生态
在中国公路货运的庞大生态中,3800万卡车司机是当之无愧的基石力量。然而,这份职业长期伴随着超负荷工作与健康隐患的双重压力。行业调研数据显示,近40%的重型卡车司机年工作时长超过3600小时,夜间行车比例高达60%以上,而各类职业相关疾病的检出率已超过70%。更值得警惕的是从业者结构的老化趋势:45
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

