罗福莉事件始末回顾与反思
上次关于小米MiMo-V2-Pro的文章,结结实实地被“打脸”了。当时质疑其只公布有“水分”的SWE-bench Verified成绩,而回避了更硬核的SWE-bench Pro测试。结果,在V2.5-Pro的宣传中,小米直接把SWE-bench Pro的成绩放在了榜首,并在OpenRouter的模型描述中特意标注了其在ClawEval、GDPVal和SWE-bench Pro等基准测试中的顶级排名。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

从结果看,MiMo-V2.5-Pro的表现已与Claude Opus 4.6、GPT-5.4这些全球顶尖模型处于同一梯队。这种“打脸”其实是件好事,它意味着小米模型的进步速度远超预期——从V2-Pro到V2.5-Pro,中间只隔了一个月。更重要的是,这至少表明小米在态度上不再回避那些更严苛的测试集了。
那么,这次发布的V2.5和V2.5-Pro,究竟带来了哪些实质性的变化?
01 把Agent能力当产品中心
这次发布最值得关注的,并非榜单上的分数,而是小米将“Agent能力、长上下文、多模态、token效率、第三方框架适配”这些特性打包进同一代产品的思路。整个发布叙事非常“工程化”,反复强调在harness、Claude Code、OpenClaw等开发者工作流语境下的表现,性能展示反倒退居其次。
这很“小米”。MiMo-V2.5-Pro的核心定位是“长程Agent”,聊天只是附带功能。它在合适的harness环境下,能够持续完成超过1000次工具调用的超长任务。小米用三个复杂的Demo展示了这一点:
第一个是耗时4.3小时、进行672次工具调用,从零完整编写出一个SysY编译器。这个任务源自北京大学编译原理课程项目,通常需要计算机专业学生花费数周。模型最终在隐藏测试集上拿到了233/233的满分。整个过程结构化且具备自我纠错能力,例如在第512轮重构导致测试失败后,模型能自行诊断并恢复。

第二个Demo更夸张:耗时11.5小时,调用工具1868次,最终交付了一个拥有8192行代码、可用的视频编辑器桌面应用。

第三个则展示了在模拟电路EDA领域的潜力:接入ngspice仿真闭环,用大约1小时完成了一个研究生级别的FVF-LDO(翻转电压跟随器低压差稳压器)设计优化任务,使多个关键指标比初始设计提升了一个数量级。

简单来说,这些Demo的核心意图是展示模型“能不能把活干完”,而不仅仅是“聪不聪明”。V2.5-Pro展现出一种“harness awareness”的特性,能充分利用环境提供的能力,管理自身记忆,并规划上下文以实现最终目标。
此外,小米将多模态与Agent能力进行了整合。其原生视觉和音频理解能力,在Video-MME上达到87.7分,接近Gemini 3 Pro;在Claw-Eval多模态子集上与Claude Sonnet 4.6持平。同时,模型支持100万token的上下文,且Agent性能超越上一代。
与许多AI厂商将代码、多模态、长上下文能力分散在不同模型中的做法不同,MiMo-V2.5选择将“看、听、推理、调用工具”整合进一个统一模型,这比单纯追求单项高分更具实用意义。
另一个值得关注的卖点是“token效率”,即省钱。在ClawEval基准上,V2.5-Pro以约7万token/trajectory达到64%的Pass^3,相比其他顶级模型,在相近能力下节省了40%到60%的token消耗。这是因为Agent的真实成本主要来自长链条的工具调用和持续的上下文读写,而非单轮问答。谁在这方面更高效,谁就更容易被部署到生产环境。小米取消1M上下文的额外倍率定价,正是在降低长任务、复杂任务的试错门槛。
02 雷军要“卖算力”了?
伴随V2.5发布,小米完善了其于4月3日推出的Token Plan订阅体系。从Lite到Max共四档,新增夜间折扣、包年优惠等运营商式定价策略,并对老用户重置已用额度。这套打法清晰地传递出一个信号:小米正试图构建一个不依赖硬件的经常性收入模型。
当自建算力集群达到一定规模后,每增加一个付费用户的边际成本极低,但用户平均收入(ARPU)可通过差异化定价持续提升。这本质上是SaaS商业模式,毛利率远高于硬件。Token Plan适配Claude Code、OpenClaw等主流框架,也是在争夺AI原生应用的基础设施入口。更深一层看,如果未来小米汽车、IoT设备的第三方应用都基于MiMo开发,那么每一次API调用都将成为其“算力税收”的机会。
不过,Token Plan能否成功,一个关键变量在于小米能否兑现其开源承诺。从手机时代起,小米就走的是开源路线。开源看似会蚕食付费用户,但其商业逻辑在于:开源吸引长尾开发者,形成生态繁荣,贡献代码和反馈;闭源API服务则满足企业客户对稳定性、服务保障的需求。Meta的Llama系列已验证了这条路径。如果小米能走通,Token Plan将成为连接开发者、企业客户与小米生态的枢纽。
从产品定位看,V2.5与V2.5-Pro形成了清晰分层:前者主打“原生全模态+强Agent”,适合日常开发;后者专注“长程Agent”,应对复杂工程任务。这种分层基于场景适配,而非简单的性能高低。
对小米而言,Token Plan的意义远超一条新增收入线。它是小米从“硬件公司”向“AI公司”叙事转型中最关键的一块拼图。过去的“硬件+IoT”模式受限于销量与渗透率,而“AI能力+开发者生态+API变&现”的模式,其天花板在于技术实力与生态活跃度。如果MiMo能在开发者社区站稳脚跟,小米就有机会蜕变为一家“AI基础设施公司”,其商业价值将远超订阅收入本身。

03 MiMo-V2.5挑刺
既然乐于见到进步,也不妨再提几点值得观察的地方。
首先,在顶尖基准上仍有差距。目前SWE-bench Pro的最高分是Claude Mythos Preview的77.8%,MiMo-V2.5-Pro的57.2%尚有距离。在考验高阶推理的Humanity‘s Last Exam测试中,其48.0%的成绩也落后于GPT-5.4的58.7%。这表明在“高阶知识密度与跨学科抽象推理”方面,与最顶级模型相比还有提升空间。
更重要的是,目前仍缺乏可完全复现的硬证据。无论是满分编译器、11.5小时的视频编辑器,还是模拟电路优化,这些都是精心准备的“高光Demo”或“实验室Showcase”。作为一款宣称“即将开源”的模型,它缺少完全透明、可横向对比的公开标准评估。这些超长任务链中,无效调用、重复调用的比例是多少?成功率与成本如何?换一批任务是否稳定?“harness awareness”这一炫酷的概念,究竟是模型学会了管理运行时,还是仅仅因为任务设计或评测环境友好?这些细节的缺失,会削弱Demo的说服力。
此外,对第三方harness(如Claude Code、OpenClaw)的高度依赖,也潜藏风险。如果这些平台策略发生变化,小米模型可能需要被动调整以适应。
最后,开源时间表仍是关键。小米曾表示V2系列模型会在“技术足够稳定”时开源,但目前仅开源了V2 Flash。V2.5系列同样承诺“即将全球开源”,但“即将”是多久?这个问题的答案,直接决定了Token Plan是扎实的商业化起点,还是短暂的营销噱头。要让大企业放心投入生产,还需要更硬的工程披露,比如更完整的公开基准测试表,或更透明的失败案例分析。
总而言之,MiMo-V2.5系列的发布,是小米一次有力的技术正名。它用一个月时间,从被质疑“回避硬核测试”到敢于正面亮出SWE-bench Pro成绩并接近顶级水平,这本身就证明了其在AI领域的投入强度和团队执行力。Token Plan是一个良好的开端,但其最终能否吸引足够多的开发者,取决于开源承诺的兑现、服务稳定性的保障以及生态的真正繁荣。小米正站在一个关键的十字路口:向前,有机会成为真正的AI基础设施公司;向后,则可能只是又多了一个营销故事。时间会给出最终的答案。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
制造业老兵如何用AI实现降本增效
提到人工智能,你脑海中浮现的可能是科技公司里闪烁的屏幕与年轻工程师的身影。它与轰鸣的工厂、满手机油的老师傅似乎格格不入。但这恰恰是最大的误解。 现实是,AI早已深入制造业的肌理。数据显示,到2025年,我国制造业数字化转型渗透率已达68%,规模以上制造业企业的人工智能技术应用普及率也超过了30%。
贝索斯百亿投资AI实验室估值达380亿美元
亚马逊创始人杰夫·贝索斯在物理人工智能领域的战略布局已进入加速实施阶段。其亲自推动的“普罗米修斯计划”新一轮大规模融资即将完成。据多方信源证实,该前沿实验室正以约380亿美元的高估值进行谈判,计划从全球市场募集约100亿美元资金,以支持其长远发展。 顶级资本密集加码 参与本轮融资的机构阵容堪称顶尖,
QuestMobile 2026年第一季度AI应用市场趋势与用户洞察报告
QuestMobile最新数据出炉,截至2026年3月,国内AI原生应用的月活用户规模已经站上了4 4亿的高位。市场格局清晰,豆包、千问、DeepSeek稳居前三,月活用户分别达到3 45亿、1 66亿和1 27亿。整个一季度,行业新增用户超过1 3亿,势头不减。更值得关注的是用户粘性,三款头部应用
AI漫剧时代来临巨头竞逐内容新赛道
微短剧,无疑是当下国内视频领域最炙手可热的赛道。就在不久前,第十三届中国网络视听大会便将焦点对准了微短剧的高质量发展、AI的冲击以及漫剧的规范化等前沿议题。这背后,是一个正在被技术重新定义的庞大市场。 按照官方定义,微短剧通常指单集时长从几十秒到15分钟、拥有完整情节的网络剧集;而时长在15到30分
专访Eight Sleep CTO 揭秘AI床垫为何受马斯克青睐及中国定价策略
在海外风行数年、估值突破15亿美元后,AI睡眠系统领域的独角兽Eight Sleep,终于正式踏入了中国市场。 今年4月,他们在深圳南山INNO100全球创新旗舰店发布了起售价为19999元的Pod 5智能深眠系统,通过微信小程序、京东、天猫等渠道销售。一个前所未有的举措是,Eight Sleep为
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

