罗福莉事件始末回顾与反思

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

业界动态

罗福莉事件始末回顾与反思

热心网友时间：2026-05-12

转载

上次关于小米MiMo-V2-Pro的文章，结结实实地被“打脸”了。当时质疑其只公布有“水分”的SWE-bench Verified成绩，而回避了更硬核的SWE-bench Pro测试。结果，在V2 5-Pro的宣传中，小米直接把SWE-bench Pro的成绩放在了榜首，并在OpenRouter的模

上次关于小米MiMo-V2-Pro的文章，结结实实地被“打脸”了。当时质疑其只公布有“水分”的SWE-bench Verified成绩，而回避了更硬核的SWE-bench Pro测试。结果，在V2.5-Pro的宣传中，小米直接把SWE-bench Pro的成绩放在了榜首，并在OpenRouter的模型描述中特意标注了其在ClawEval、GDPVal和SWE-bench Pro等基准测试中的顶级排名。

从结果看，MiMo-V2.5-Pro的表现已与Claude Opus 4.6、GPT-5.4这些全球顶尖模型处于同一梯队。这种“打脸”其实是件好事，它意味着小米模型的进步速度远超预期——从V2-Pro到V2.5-Pro，中间只隔了一个月。更重要的是，这至少表明小米在态度上不再回避那些更严苛的测试集了。

那么，这次发布的V2.5和V2.5-Pro，究竟带来了哪些实质性的变化？

01 把Agent能力当产品中心

这次发布最值得关注的，并非榜单上的分数，而是小米将“Agent能力、长上下文、多模态、token效率、第三方框架适配”这些特性打包进同一代产品的思路。整个发布叙事非常“工程化”，反复强调在harness、Claude Code、OpenClaw等开发者工作流语境下的表现，性能展示反倒退居其次。

这很“小米”。MiMo-V2.5-Pro的核心定位是“长程Agent”，聊天只是附带功能。它在合适的harness环境下，能够持续完成超过1000次工具调用的超长任务。小米用三个复杂的Demo展示了这一点：

第一个是耗时4.3小时、进行672次工具调用，从零完整编写出一个SysY编译器。这个任务源自北京大学编译原理课程项目，通常需要计算机专业学生花费数周。模型最终在隐藏测试集上拿到了233/233的满分。整个过程结构化且具备自我纠错能力，例如在第512轮重构导致测试失败后，模型能自行诊断并恢复。

第二个Demo更夸张：耗时11.5小时，调用工具1868次，最终交付了一个拥有8192行代码、可用的视频编辑器桌面应用。

第三个则展示了在模拟电路EDA领域的潜力：接入ngspice仿真闭环，用大约1小时完成了一个研究生级别的FVF-LDO（翻转电压跟随器低压差稳压器）设计优化任务，使多个关键指标比初始设计提升了一个数量级。

简单来说，这些Demo的核心意图是展示模型“能不能把活干完”，而不仅仅是“聪不聪明”。V2.5-Pro展现出一种“harness awareness”的特性，能充分利用环境提供的能力，管理自身记忆，并规划上下文以实现最终目标。

此外，小米将多模态与Agent能力进行了整合。其原生视觉和音频理解能力，在Video-MME上达到87.7分，接近Gemini 3 Pro；在Claw-Eval多模态子集上与Claude Sonnet 4.6持平。同时，模型支持100万token的上下文，且Agent性能超越上一代。

与许多AI厂商将代码、多模态、长上下文能力分散在不同模型中的做法不同，MiMo-V2.5选择将“看、听、推理、调用工具”整合进一个统一模型，这比单纯追求单项高分更具实用意义。

另一个值得关注的卖点是“token效率”，即省钱。在ClawEval基准上，V2.5-Pro以约7万token/trajectory达到64%的Pass^3，相比其他顶级模型，在相近能力下节省了40%到60%的token消耗。这是因为Agent的真实成本主要来自长链条的工具调用和持续的上下文读写，而非单轮问答。谁在这方面更高效，谁就更容易被部署到生产环境。小米取消1M上下文的额外倍率定价，正是在降低长任务、复杂任务的试错门槛。

02 雷军要“卖算力”了？

伴随V2.5发布，小米完善了其于4月3日推出的Token Plan订阅体系。从Lite到Max共四档，新增夜间折扣、包年优惠等运营商式定价策略，并对老用户重置已用额度。这套打法清晰地传递出一个信号：小米正试图构建一个不依赖硬件的经常性收入模型。

当自建算力集群达到一定规模后，每增加一个付费用户的边际成本极低，但用户平均收入（ARPU）可通过差异化定价持续提升。这本质上是SaaS商业模式，毛利率远高于硬件。Token Plan适配Claude Code、OpenClaw等主流框架，也是在争夺AI原生应用的基础设施入口。更深一层看，如果未来小米汽车、IoT设备的第三方应用都基于MiMo开发，那么每一次API调用都将成为其“算力税收”的机会。

不过，Token Plan能否成功，一个关键变量在于小米能否兑现其开源承诺。从手机时代起，小米就走的是开源路线。开源看似会蚕食付费用户，但其商业逻辑在于：开源吸引长尾开发者，形成生态繁荣，贡献代码和反馈；闭源API服务则满足企业客户对稳定性、服务保障的需求。Meta的Llama系列已验证了这条路径。如果小米能走通，Token Plan将成为连接开发者、企业客户与小米生态的枢纽。

从产品定位看，V2.5与V2.5-Pro形成了清晰分层：前者主打“原生全模态+强Agent”，适合日常开发；后者专注“长程Agent”，应对复杂工程任务。这种分层基于场景适配，而非简单的性能高低。

对小米而言，Token Plan的意义远超一条新增收入线。它是小米从“硬件公司”向“AI公司”叙事转型中最关键的一块拼图。过去的“硬件+IoT”模式受限于销量与渗透率，而“AI能力+开发者生态+API变&现”的模式，其天花板在于技术实力与生态活跃度。如果MiMo能在开发者社区站稳脚跟，小米就有机会蜕变为一家“AI基础设施公司”，其商业价值将远超订阅收入本身。

03 MiMo-V2.5挑刺

既然乐于见到进步，也不妨再提几点值得观察的地方。

首先，在顶尖基准上仍有差距。目前SWE-bench Pro的最高分是Claude Mythos Preview的77.8%，MiMo-V2.5-Pro的57.2%尚有距离。在考验高阶推理的Humanity‘s Last Exam测试中，其48.0%的成绩也落后于GPT-5.4的58.7%。这表明在“高阶知识密度与跨学科抽象推理”方面，与最顶级模型相比还有提升空间。

更重要的是，目前仍缺乏可完全复现的硬证据。无论是满分编译器、11.5小时的视频编辑器，还是模拟电路优化，这些都是精心准备的“高光Demo”或“实验室Showcase”。作为一款宣称“即将开源”的模型，它缺少完全透明、可横向对比的公开标准评估。这些超长任务链中，无效调用、重复调用的比例是多少？成功率与成本如何？换一批任务是否稳定？“harness awareness”这一炫酷的概念，究竟是模型学会了管理运行时，还是仅仅因为任务设计或评测环境友好？这些细节的缺失，会削弱Demo的说服力。

此外，对第三方harness（如Claude Code、OpenClaw）的高度依赖，也潜藏风险。如果这些平台策略发生变化，小米模型可能需要被动调整以适应。

最后，开源时间表仍是关键。小米曾表示V2系列模型会在“技术足够稳定”时开源，但目前仅开源了V2 Flash。V2.5系列同样承诺“即将全球开源”，但“即将”是多久？这个问题的答案，直接决定了Token Plan是扎实的商业化起点，还是短暂的营销噱头。要让大企业放心投入生产，还需要更硬的工程披露，比如更完整的公开基准测试表，或更透明的失败案例分析。

总而言之，MiMo-V2.5系列的发布，是小米一次有力的技术正名。它用一个月时间，从被质疑“回避硬核测试”到敢于正面亮出SWE-bench Pro成绩并接近顶级水平，这本身就证明了其在AI领域的投入强度和团队执行力。Token Plan是一个良好的开端，但其最终能否吸引足够多的开发者，取决于开源承诺的兑现、服务稳定性的保障以及生态的真正繁荣。小米正站在一个关键的十字路口：向前，有机会成为真正的AI基础设施公司；向后，则可能只是又多了一个营销故事。时间会给出最终的答案。

来源:https://36kr.com/p/3780116224471811

上一篇：中国AI四大发展趋势解析日均140万亿Token背后的机遇

下一篇：微软AI转型首次向员工提供退休买断方案