MiMo-V2.5 Pro登顶开源Agent王者 罗福莉谈模型与Harness同步演进
今天凌晨,AI开源社区迎来重磅消息:小米正式开源其旗舰级大模型 MiMo-V2.5 系列。其中,性能最强的 MiMo-V2.5-Pro 在权威 Agent 基准测试中,力压 DeepSeek V4-Pro、Kimi K2.6 及 GLM 5.1 等强劲对手,登顶开源模型榜首。

小米此次开源行动极为迅速。在模型公测仅5天后,由罗福莉领衔的团队便将 MiMo-V2.5-Pro 与 MiMo-V2.5 两大主力模型的完整权重及分词器(tokenizer)上传至 Hugging Face 平台。
两款模型均支持高达1M(百万级)的上下文长度,并采用了极为宽松的 MIT 开源协议。这意味着开发者可自由进行商用部署、持续预训练、LoRA 微调乃至二次开发,几乎没有任何限制。此举极大地降低了技术门槛,为模型的大规模应用与生态繁荣奠定了坚实基础。
与此同时,小米 MiMo 团队同步启动了“Xiaomi MiMo Orbit 百万亿Token 创造者激励计划”,旨在鼓励全球开发者与创作者基于其开源模型进行创新与应用探索。这对于整个AI技术社区而言,无疑注入了新的活力。

值得一提的是,就在上周,MiMo 模型负责人、有“AI天才少女”之称的罗福莉进行了一次深度的技术访谈。她详细分享了近两个月深度使用 Agent 产品的体验与思考,内容涵盖三次关键认知转变、持久化记忆的核心价值、Agent自学习的潜在路径,以及对当前主流技术范式的独到见解。
接下来,我们将首先解析 MiMo-V2.5 系列在 Agent 能力上的卓越表现,随后深入探讨罗福莉关于 Agent 技术前沿的深刻洞察。
Agent性能稳居开源模型第一
MiMo-V2.5 系列包含两款核心模型。MiMo-V2.5-Pro 专为复杂 Agent 任务与代码生成优化,总参数量达1.02T,激活参数量为42B。MiMo-V2.5 则是一款具备强大 Agent 能力的原生全模态模型,总参数310B,激活参数15B。
要评估其真实实力,需了解当前衡量通用 Agent 能力的几大核心基准:
GDPVal-AA(Elo):该基准模拟真实世界中的专业工作场景,覆盖44种职业。其评估方式直接聚焦最终产出质量,并采用类似国际象棋的 Elo 评级系统进行排名,极具说服力。
τ³-Bench:该基准模拟真实客服等多轮对话场景,重点考察 Agent 在长程交互中保持状态一致性、遵循策略的可靠性与稳定性,评估指标为多次运行的成功率。
ClawEval(pass^3):这是2026年新推出的高难度端到端评估基准。要求 Agent 在全程透明、可能受干扰的环境中,独立完成300个真实任务。其特色在于“轨迹感知评分”,每一步均有执行轨迹、审计日志和环境快照三重证据记录,且要求3次独立运行全部成功方算通过。
MiMo-V2.5-Pro 的表现堪称惊艳:在 GDPVal-AA(Elo)上获得1581分,在 ClawEval(pass^3)上达到63.8分,在 τ³-Bench 上取得72.9分。这三项成绩不仅在所有开源模型中位列第一,即使与 Gemini 3.1Pro、GPT-5.4、Claude Opus 4.6 等顶级闭源模型相比,也处于同一梯队。
除了顶尖性能,其效率优势同样突出。V2.5-Pro 的 Token 处理效率相比 Kimi K2.6 提升约42%,编码能力直逼 DeepSeek V4 Pro,而推理成本更具竞争力。V2.5 模型也展现出优异的性价比。
对开发者而言,部署便捷性至关重要。两款模型在 Hugging Face 支持一键下载,小米与社区紧密协作,实现了在 vLLM 和 SGLang 等主流推理框架上的当日适配。此外,模型原生支持 FP8 混合精度,经量化后甚至可在消费级显卡上流畅处理长上下文任务,显著降低了硬件门槛。
罗福莉深度解读Agent技术前沿
访谈伊始,罗福莉便指出:过去两个月深度使用 OpenClaw 的经历,彻底改变了她对 AI 技术演进路径的认知。
从怀疑到依赖:OpenClaw 使用体验的转变
她坦言,今年一月初次听说 OpenClaw 时,与多数人看法一致,认为这“不过是 Claude Code 加了个聊天界面”。然而,春节假期深入体验后,她的看法发生了根本性转变。她感受到了一种强烈的自主性和独特的“产品灵魂”,一种由极致细节设计带来的温暖与关怀感。
例如它设计了 search.md 这样的机制。再举一个简单细节:它如何感知时间?它会在每轮对话的上下文自动嵌入当前时间戳。类似这样精妙编排的上下文设计无处不在,正是在这些不易察觉之处,体验被塑造得无比流畅。
使用第二天,她就“如何激发团队好奇心”这一话题与 OpenClaw 深入探讨一小时,并将讨论成果转化为一套可用的 Skills(技能)。自此,无论是人才选拔还是团队管理,她都会咨询 OpenClaw,感觉其逐渐成为了自己的“数字分身”。
第三天,她的思考更进一步:“在 Agent 框架下工作,应如何设计多轮交互?”这需要模拟用户 Agent。为此,她就“如何构建优秀的用户 Agent”与 OpenClaw 探讨了一两个小时,并基本实现了构想。
这个用户 Agent 可以与我们现有的后训练(post-training)框架结合,用于构建更丰富的智能体场景数据。无论是进行有监督微调(SFT)还是强化学习(RL),它都扮演着核心数据源的角色。
回顾整个过程,她认为自己的认知经历了三次跃迁:“从最初惊叹于其有灵魂的产品设计,到依赖它分担工作与生活事务,最终它直接推动并塑造了我的研究方向。”每一天都带来新的启发。
此后,她开始系统分析 OpenClaw 框架优于 Claude Code 的深层原因。她指出:
首先,它具备一套更持久、更健壮的记忆系统。这种耐用性体现在记忆的分层与分级管理机制上,这是使用 Claude Code 时无法体验的。其次,是多模型的智能协同能力,这超出了我最初的预期。例如,当遇到视频理解任务时,在 OpenClaw 中只需上传视频,它会自动调度能力更强的专用视频模型处理,用户无需手动干预。
她总结道,OpenClaw 的核心产品逻辑在于“通过一整套精密的 Agent 编排流程,最大限度地弥补底层模型的能力短板”。
为验证这一观点,团队将 MiMo V2 Flash 和一个近期训练的、仅3B参数的端侧小模型接入 OpenClaw 框架,结果发现它们竟能完成一些原本认为小模型无法胜任的任务。这让她确信,“精巧复杂的 Agent 框架设计,能极大弥补模型本身的能力缺陷”,这正是“OpenClaw 相比 Claude Code 的差异化核心竞争力”。
持久化记忆:优秀Agent框架的基石
罗福莉强调,持久化记忆是优秀 Agent 框架的基本特征之一。
OpenClaw 的设计借鉴并超越了 Claude Code 的记忆系统思路,“例如在会话上下文即将耗尽时进行智能压缩存储,在任务完成后执行计划性的记忆归档,从而确保跨会话的上下文信息能高效共享与复用。”
但 OpenClaw 思考得更深远,它专注于如何端到端地优化任务完成度,并针对当前模型在端到端任务中的短板进行专项设计,因此催生了持久化记忆等创新。后来,这些优秀设计也被 Claude Code 吸收借鉴。
她由此提出一个重要观察:这种新型 Agent 框架配合一个“中等能力”的模型,或许“能在85%的任务上达到与 Claude Sonnet 相当的水平”。这揭示了卓越的框架设计对模型能力具有巨大的放大效应。
Agent的“自学习”演进路径
关于 Agent 如何实现“自学习”,罗福莉分享了她的推演。她认为最可行的路径是:模型与 Agent 架构必须协同进化。
随着模型通过强化学习等方式持续进步,整个 Agent 框架实际上也在被重塑。这包括两部分:一是发送给模型的静态信息(如记忆库、技能文件夹等在新会话中传递的内容),这些应在训练过程中动态更新;二是动态信息,即 Agent 架构设计本身,这一点至关重要。
不同的应用场景(如软件工程与金融分析)需要不同的架构设计。因此,在提升模型底层能力的同时,必须同步优化 Agent 框架对该模型的适配度与泛化能力,二者相辅相成,方能迈向真正的“自学习”。
Agent框架与产品的本质区别
当被问及 Agent 框架是否等同于“产品”时,罗福莉给出了清晰界定。
她认为,“产品”通常指用户能直接感知的人机交互界面。而 Agent 框架则位于这层界面之下,它定义了用户与模型之间沟通的底层逻辑、任务调度与决策流程。这正对应了今年AI领域热议的“Harness”(驾驭层)概念。
她进一步阐释,一个成熟的 Agent 框架需要深刻理解所调度模型的能力边界与优劣,知晓如何为效果或成本进行最优调度。这个介于人与模型之间的中间层可以非常“厚重”,承载大量复杂性,而前端的用户界面反而可以做得非常“轻薄”,不再是系统瓶颈。
她还点出了一个关键差异:“Claude Code 本身就是一个极其复杂的 Agent 框架,只是因其闭源而显得神秘。OpenClaw 是开源的,你可以透彻理解其设计并自行修改。这种‘可塑性’至关重要。”
MLA机制与Agent范式的冲突
在讨论模型架构时,罗福莉提出了一个挑战性观点:尽管 MLA(多头潜在注意力机制)在传统长文本对话中表现出色,能有效减少 KV Cache,但她认为其设计不符合 Agent 的范式要求。
MLA 的原始设计目标,是在当时的 H 系列芯片上优化访存计算比,突破访存瓶颈,避免算力闲置。在这种强约束下,模型架构本身的创新空间实际上非常有限。
那么,若想既保留关键 KV Cache,又提升推理速度,有何他法?她提到了 MTP(多Token预测)技术,该技术可从另一维度将实际推理速度提升数倍。
但问题在于,MLA 结构下很难有效集成 MTP。因为 MLA 已在压缩与访存间达到了精妙平衡。若强行加入 MTP,瓶颈将从访存转移至计算,变得得不偿失。因此,目前所有基于 MLA 结构的模型,据我推测均未采用 MTP,这也是它们在部分场景下推理相对较慢的原因之一。
她与团队选择了不同的技术路径:利用滑动窗口(Sliding Window)节省下来的注意力计算量,来“支撑” MTP 的运行。他们在架构上做出了大胆创新:
我们将全量注意力层与滑动窗口层的混合比例推向极致,达到 7:1。这样,通过滑动窗口层减少了 KV Cache 占用,使模型处理长文本更高效、支持上下文更长。节省出的算力则用于支持 MTP,提升推理速度。
通过这一设计,在实际推理中实现了访存与计算的良好平衡,同时兼顾了长文本处理的经济性与高速推理性能。
参考链接
https://www.youtube.com/watch?v=V9eI-t3TApE
https://x.com/_LuoFuli/status/2048851054662762618?s=20
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
Synapse 如何让AI对话积累知识复利提升效率
在AI助手日益普及的今天,我们与技术对话的频率可能已经超过了与人交流。每一次与ChatGPT探讨技术方案,向Claude请教复杂编程问题,或是让CodeBuddy协助代码重构,本质上都是一次知识的创造与积累。然而,这些宝贵的思维火花和解决方案,往往在对话窗口关闭的瞬间,就散落到了数字世界的各个角落,
AI绘图成本骤降GPTImage2每张图仅需0006美元
2026年4月22日凌晨,设计圈在毫无预兆的情况下被一则消息彻底唤醒。OpenAI发布了GPT-Image-2,其负责人Sam Altman在直播中毫不讳言,称这次飞跃“相当于从GPT-3一步跳到了GPT-5”。这并非虚言——在LM Arena排行榜上,它以1512的Elo评分断层领先,第二名仅为1
郭明錤透露OpenAI与高通联发科合作手机处理器2028年量产
一则来自供应链的消息,让AI硬件领域的未来图景变得更加清晰。天风国际证券分析师郭明錤在4月27日发布的报告中透露,OpenAI正在积极推进智能手机芯片项目,计划与高通、联发科联合开发专用处理器,并选定立讯精密作为独家系统联合设计与制造伙伴。整个项目的目标,是瞄准2028年实现量产。 OpenAI为何
3D生成大模型如何将电商商品展示成本降低90%
在电商领域,商品展示的视觉体验直接决定了用户的购买决策与页面转化率。然而,传统三维建模流程存在成本高、周期长的痛点,使得众多中小商家难以承受。如今,随着3D生成式AI技术的成熟与普及,一条低成本、高效率的3D内容生产路径已然清晰。这不仅是一次技术工具的升级,更是电商商品视觉呈现方式的一次根本性变革。
游戏公司如何利用AIGC技术高效生成角色原画与设定
游戏美术生产流程正在经历一场由AIGC技术引领的效率革命。角色设定与概念原画这两个核心创意环节,如今正广泛引入人工智能作为高效助手。当前行业的最佳实践,已经形成了一套从文本描述到视觉呈现、从创意构思到合规审查的完整智能化工作流。 一、基于文本提示的角色设定生成 这套方法论的核心优势,在于打破了语言描
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

