当前位置: 首页
科技数码
M2.5登顶OpenRouter:打造人人所需的核心AI模型秘诀

M2.5登顶OpenRouter:打造人人所需的核心AI模型秘诀

热心网友 时间:2026-02-23
转载


免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

作者 | 王兆洋
邮箱 | wangzhaoyang@pingwest.com

先看一组数据:

评估模型编程能力的主流榜单SWE-bench Verified上,Claude Opus 4.6 得分80.8%,Gemini 3.1 Pro 80.6%,MiniMax 2.5 80.2%,GLM-5 77.8%,Kimi K2.5 76.8%。

最大分差也不超过4分,差距就这么点大。开发者今天其实已经很难只靠这些“考试分数”来选择要用的模型。

但最近还有另一组很有意思的数据,来自最重要的模型调用平台之一OpenRouter:


最新统计显示,最近其平台上的token调用激增,且其中很多需求来自100K-1M长文本任务,也就是agent工作流最典型消耗区间。刺激这些需求爆发的一个重要因素是一个新模型的发布——MiniMax M2.5。单是在OpenRouter上,它发布后七天的调用量就到了破纪录的 3.07T tokens。

这说明什么?

今天公开的benchmark也就是打榜式的评测已经没那么重要了,因为差别不再明显。但与此同时,真实使用者的感受越来越关键,做好了,你就可以成为最受欢迎的那一个,因为用户们对模型的需求远远未被满足。

所以,关键的问题变成,如何做出大家最需要的那个模型。

可以先来看看这个备受欢迎的MiniMax M2.5是一个什么样的模型。

1.模型部署上:10B激活参数,实战中总结的甜点位

MiniMax M2.5,一个总参数 230B,激活参数只有10b的模型。它不会叫自己端侧模型,但已经是私有化部署最友好的模型。这是一个实战中总结出来的性价比甜点位,也是头部模型里这种友好度里的唯一选择。

2.价格:没有波动,这是开发者最在意的负担

人们想尽可能多消耗token,但对价格变化又有负担,M2.5通过各种工程和算法更新,在性能提升同时,把价格维持住了,这其实说明MiniMax自己也清楚知道真实的开发者的最大负担是什么。

3.模型的核心能力:死磕Coding和Agent,让开发者真的认真考虑用它替代Claude

此次M2.5在编程上性能提升的来源,不再是“不论过程只管对标结果”的方式,而是把开发过程里的代码工程甚至开发思维训练到模型里。M2.5的spec能力就是一个典型的代表。

最新报告这样形容:M2.5 具备了像架构师一样思考和构建的能力,比如模型演化出了原生 Spec 行为:在动手写代码前,以架构师视角主动拆解功能、结构和 UI 设计,实现完整的前期规划。

M系列阶段性目标明确,此时此刻,它就是要死磕Coding 和 Agent。它在SWE-Bench Verified 已经做到80.2%的水平,同时约1 元/小时的成本给你100 tokens/秒的吞吐,还要什么自行车。

这当然是个带有赌注成分的决定,并且需要做出trade off,但目前看起来效果不错收益明显。大量Claude Code用户在选择模型时真的逃不开要考虑M系列模型,这就很能说明问题。

4.推理:推理效率的极致优化,每一环都是在解决业务压力

M2.5在工程化上持续补全:平衡吞吐和稳定的Windowed FIFO,把大量重复前缀合并处理、解放出40倍效率的树状结构……推理的每个环节都在继续优化。

5.以及可能是最重要的,又一个技术创新:RL框架Forge

MiniMax在技术上一直挺有追求,不少新的思路是它第一批尝试然后反馈给行业里,比如此前的交错思维链式推理等。而这一次它重点介绍了用在M2.5训练里的一个新的 RL 框架 Forge 。

这是一个工业级的Agent RL 训练方案,也就是它的目标非常务实,就是面向真实复杂的场景大规模训练AI Agent。

上个阶段把Agent训入模型的方式其实依然粗糙,它们有点“混为一谈”的感觉,而Forge这次核心探索了对Agent部分和模型本身基础能力做解耦的方法。

先把Agent和它需要的环境抽象出来,与模型本身区分开,然后在两者间增加一个中间层,既扮演物理隔离的作用,也提供智能调度和实施策略调整的角色。这很巧妙。


更有意思的是,这样解耦后,还解锁了一个新的scale的方向,就是把各种Agent框架放进去做训练,最终获得泛化能力。这是个非常有用,甚至直接能影响开发者体验的泛化,它让M2.5可以适配各种见过没见过的“脚手架”。

这同样是真实agent场景里非常需要的能力。

看过M 2.5的这些训练重点,你会发现,它的这些优化都不是为了刷榜,而是为了解决非常具体的问题——在Agent的需求快速取代了所谓对话场景的需求后,模型该提供什么样的智能。

它需要在效果和价格上找到微妙平衡,持续提升性能的同时降低成本。

这说来简单,但对这个度的把握很难。模型厂要对这些开发者的需求有最直接的感知。而MiniMax的“手感”其实正来自这家公司自己内部。

M2.5背后,MiniMax 的M系列模型最重要的研发思路就是要解决它内部各个团队在开发agent的过程里遇到的问题。

闫俊杰曾在M1发布后分享过:“公司内部的小伙伴一直在搭建各种各样的Agent,来帮助解决公司飞速发展中遇到的各项挑战……但是我们发现没有一款模型在这些Agent上能完全满足我们的需求。这里面的挑战在于好的模型需要在效果、价格和推理速度上取得好的平衡,这几乎是一个‘不可能三角’……我们一直在探索,能不能有一款模型能在效果、价格和速度上能取得比较好的平衡,从而让更多的人能受益于Agent时代的智能提升。”

所以,MiniMax M2发布时,它做到当时Claude主力模型价格的8%,而最新的MiniMax M2.5价格是Claude主力模型的1/12。甚至,M2.5直接被形容为“1万美元可以让4个Agent连续工作一年”的模型,这几乎意味着你可以不需要考虑使用成本地近乎无限使用它。

同时,从死磕编程能力、开发Forge框架再到各种推理优化,它继续榨出更好的模型效果和更快推理速度。



而其中像Forge框架这种创新,就是整个M2.5背后思路的典型代表:只有那些自己在日常工作环境里对各种agent脚手架之间的适配感到过绝望,对真实环境里模型与agent能力之间的关系真正“抓狂”过的模型团队才会去解决这些问题。

M2.5显然是MiniMax自己在面对“不可能三角”时最需要的那类模型。现在,它也成了开发者们最需要的那类模型。

所以作为模型公司本身,当你一直在牌桌上,你自己其实就是最能检验模型实际能力和体验的第一道关。

当一家模型公司自己对生产力AI的需求达到最先进程度,它自己面对的体验困局也就会是人们最重要和普遍的需求,它的创新方向就会是大家期待的模型的进步方向。

它自己喜欢的那个模型,就会是大家最喜欢的模型。


点个“爱心”,再走 吧

来源:https://www.163.com/dy/article/KMEOSFIT0511N33R.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
聚焦AI文创与跨境,“数智苏豪”新街口OPC社区启幕

聚焦AI文创与跨境,“数智苏豪”新街口OPC社区启幕

3月30日,南京新街口核心商圈,苏豪大厦一楼广场上机器人迎宾起舞,充满科技感。由苏豪资产运营集团与南京新街口金融商务区管理委员会(以下简称“新街口管委会”)共同打造的“数智苏豪”新街口OPC社区揭牌

时间:2026-03-30 22:55
极兔牵手顺丰真相:合作细节与市场影响深度解析

极兔牵手顺丰真相:合作细节与市场影响深度解析

今年1月中旬,物流圈上演了备受瞩目的一幕:当国内快递行业因增速放缓而步入存量整合期时,主导中高端市场的老牌物流服务商顺丰控股,与主打电商件的极兔速递联合宣布达成了一项投资交易金额达83亿港元的相互持

时间:2026-03-30 22:55
力箭二号遥一运载火箭成功发射空间试验飞船

力箭二号遥一运载火箭成功发射空间试验飞船

记者从公司获悉,3月30日19时00分,中科宇航力箭二号遥一运载火箭·国际纺都号在东风商业航天创新试验区成功发射,将新征程01卫星、新征程02卫星和天视卫星01星精准送入预定轨道,发射任务取得圆满成

时间:2026-03-30 22:55
1.9亿年薪背后:又一位车企CEO薪酬为何大幅上涨?

1.9亿年薪背后:又一位车企CEO薪酬为何大幅上涨?

电 动 知 家消 息,近日,据外媒报道,据福特汽车日前发布的一份文件,该公司首席执行 官吉姆·法利2025年的总薪酬大幅增长了11%,达到约2752万美元(约1 9亿元人民币),这是其自2020年末

时间:2026-03-30 22:55
美议员为何急于拉黑中国机器人却暗留后门?

美议员为何急于拉黑中国机器人却暗留后门?

白宫里,一台人形机器人缓步走入东厅,与美国“第一夫人”并肩亮相,动作仍带着明显的机械感;仅仅一天后,国会山上,这种“会走路的机器”却被划为潜在安全威胁,写进立法提案。这是上周美国上演的荒诞一幕。两党

时间:2026-03-30 22:55
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程