小米MiMo-V2.5大模型深夜发布罗福莉亮剑迎战DeepSeek V4

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

业界动态

小米MiMo-V2.5大模型深夜发布罗福莉亮剑迎战DeepSeek V4

热心网友时间：2026-05-12

转载

距离上一代发布仅36天，小米MiMo大模型家族再次迎来重磅升级。本次，小米一举推出四款全新模型：旗舰推理模型MiMo-V2 5、全模态智能体模型V2 5-Pro已启动公测并即将开源；而V2 5-TTS系列与V2 5-ASR模型也即将正式亮相。主导此次快速迭代的，是小米MiMo大模型负责人罗福莉。这

距离上一代发布仅36天，小米MiMo大模型家族再次迎来重磅升级。本次，小米一举推出四款全新模型：旗舰推理模型MiMo-V2.5、全模态智能体模型V2.5-Pro已启动公测并即将开源；而V2.5-TTS系列与V2.5-ASR模型也即将正式亮相。

主导此次快速迭代的，是小米MiMo大模型负责人罗福莉。这位原DeepSeek核心成员，在AI领域素有“天才少女”之称。值得关注的是，在上代模型发布时，她便透露“未来模型足够稳定后将考虑开源”的意向，如今这一承诺正在加速兑现。

与上一代一脉相承，MiMo-V2.5全系列的核心定位依然是“为AI智能体场景深度优化”。其中，MiMo-V2.5-Pro专为处理长链条、高复杂度的智能体任务而生，而MiMo-V2.5则旨在覆盖绝大多数通用智能体应用场景。官方指南给出了明确建议：V2.5支持原生的图像、音频与视频全模态智能体能力，相比Pro版本平均推理速度更快，更适合对响应延迟敏感的任务需求。

除了性能的常规提升，此次新模型还有一个显著亮点：更高的Token使用效率。官方数据显示，在达到智能体基准榜单ClawEval相同分数的情况下，MiMo-V2.5-Pro相比本周刚发布的Kimi开源旗舰多模态模型Kimi K2.6，节省了高达42%的Token；而MiMo-V2.5相比Meta本月初发布的闭源多模态推理模型Muse Spark，更是节省了50%的Token。这意味着在实现相近能力水平的同时，用户的API调用成本有望大幅降低。

伴随新模型的发布，小米也全面优化了其模型订阅计划Token Plan。主要调整包括：取消了此前1 Token消耗4 Credits的计费方式，不再区分256k和1M上下文窗口的计费倍率，并新增了夜间专属优惠时段和自动续费模式。回顾该计划推出初期，曾有用户反馈价格偏高、基础套餐Token量不足，此次调整显然是针对市场反馈的积极回应。

那么，新模型的实际表现究竟如何？以MiMo-V2.5-Pro为例，当被要求“开发一款3D横版格斗游戏”时，它在几分钟内编写了1123行代码，生成了一款名为“龙虎格斗”的完整游戏。游戏界面包含了血条、角色名、倒计时等核心元素，甚至实现了命中火花、格挡碎片、镜头震动等反馈系统，具备不错的可玩性。当然，目前生成的角色造型还相对基础，差异化主要体现在颜色和装饰上。

龙虎格斗游戏界面

一个有趣的背景是，今年3月，小米的MiMo-V2-Pro曾以匿名模型“Hunter Alpha”的身份出现在OpenRouter平台，一度被开发者社区误认为是即将发布的DeepSeek V4。如今，小米新一代模型已然亮相，而DeepSeek V4也传闻将于本周发布，这其中的微妙关联，颇值得业界玩味。

01.MiMo-V2.5-Pro：专攻长难智能体任务，4.3小时完成本科生数周项目

根据小米官方定义，MiMo-V2.5-Pro是迄今为止MiMo家族中性能最强的模型。在通用智能体能力、复杂软件工程以及长程任务处理等维度上，其表现已能与Claude Opus 4.6、GPT-5.4等全球顶尖的智能体模型相媲美，较上一代的MiMo-V2-Pro有显著提升。

内部测试显示，在搭配合适的运行框架后，MiMo-V2.5-Pro能够稳定完成单次涉及近千轮工具调用的超长链条任务。更重要的是，在智能体场景下，它的指令遵循能力显著增强，不仅能捕捉上下文中的隐性需求，还能在超长任务周期内保持逻辑的一致性。

基于小米自研的评估套件MiMo Coding Bench进行评测，MiMo-V2.5-Pro与Claude Opus 4.6的差距正在进一步缩小，得分分别为73.7分和77.1分，而上一代的MiMo-V2-Pro得分为71.5分。

有网友用一道经典的“网红”逻辑题测试了它：“我想去洗车，洗车店离我50米远，我应该走着去还是开车去？” MiMo-V2.5-Pro不负众望，给出了符合常识的正确答案。

官方公布的几个实操案例，更能直观展现其能力边界。

第一个案例是“用Rust语言实现完整的SysY编译器”。这个任务的挑战性在于，模型需要独立完成从词法分析器、语法分析器、AST构建，到Koopa IR代码生成、RISC-V汇编后端，乃至性能优化的全流程。模型采取了逐层搭建的策略，先构建完整的编译器流水线骨架，再逐一攻克各层。在各项细分评分中，它在Koopa IR、RISC-V后端和性能优化上都拿到了满分。首次编译就实现了59%的冷启动通过率，这意味着在运行任何测试之前，其基础架构就是正确的。即使在任务后期（第512轮）出现了一次导致测试回退的重构，模型也能自行诊断问题、恢复状态并继续推进。这个项目是北京大学《编译原理》的课程作业，本科生通常需要数周才能完成，而MiMo-V2.5-Pro仅用了4.3小时，经过672次工具调用，就在隐藏测试集上取得了满分。

第二个案例是开发一个视频编辑器Web应用。MiMo-V2.5-Pro最终交付的应用具备了多轨道时间线、片段裁剪、交叉淡化、音频混合及导出等完整功能。整个项目代码量达8192行，历经1868次工具调用，在11.5小时的自主工作中完成。

第三个案例则涉及模拟电路EDA任务，要求“基于台积电180nm CMOS工艺，从零设计并优化一款完整的翻转电压跟随器低压差线性稳压器（FVF-LDO）”。任务过程中，模型需要确定功率晶体管尺寸、调整补偿网络、选择偏置电压，以使相位裕度、线路调整率等六个关键指标同时达标。经验丰富的模拟电路设计师完成此类项目通常需要数天时间。研究人员将MiMo-V2.5-Pro接入ngspice仿真循环，使用Claude Code作为仿真框架，经过约一小时的闭环迭代，模型就生成了一个满足所有指标的设计，其中四个关键指标相比初始版本提升了一个数量级。

02.MiMo-V2.5：能听能看能读，胜任通用智能体场景

如果说V2.5-Pro是攻坚克难的“特种兵”，那么MiMo-V2.5就是应对日常任务的“多面手”。作为一款为智能体场景打造的原生全模态模型，它能同时处理视觉、听觉和文本信息，并基于感知结果采取行动。

此次升级，V2.5有两个关键进步：其智能体能力全面超越了上一代旗舰基座模型MiMo-V2-Pro，而其多模态感知能力则全面超越了上一代全模态智能体模型MiMo-V2-Omni。

在面向AI智能体的端到端评测基准Claw-Eval中，MiMo-V2.5的表现已超过MiMo-V2-Pro，同时API调用成本降低了约50%。在VideoMME、CharXiv、MMMU-Pro等涉及跨模态推理、视频理解和图表分析的基准测试中，其表现已逼近甚至超越了Claude Opus 4.6、Gemini 3 Pro、GPT-5.4等闭源模型。

在编程能力方面，根据小米内部的MiMo编程基准测试，MiMo-V2.5在日常编程任务中已经超越了Gemini 3.1 Pro，不过与Claude Opus 4.6相比，差距依然明显。

03.Token Plan：夜间专属时段8折优惠，包年订阅可省近千元

与新模型同步到来的，还有其订阅式API调用套餐MiMo Token Plan的优化。该计划允许用户调用MiMo系列的全部8款模型，包括旗舰推理模型MiMo-V2-Pro和V2.5-Pro，全能多模态模型MiMo-V2-Omni和V2.5，以及语音合成模型MiMo-V2-TTS、V2.5-TTS、V2.5-TTS-VoiceClone、V2.5-TTS-VoiceDesign（后三款待发布）。

计费方式迎来了更优惠的调整：取消了原先1 Token消耗4 Credits的规则，也不再区分256k和1M上下文窗口的计费倍率。

新模型的计费标准如下：

MiMo-V2.5：1x（消耗1 Token = 1 Credit）

MiMo-V2.5-Pro：2x（消耗1 Token = 2 Credits）

作为对比，下图是MiMo Token Plan刚发布时的计费方式：