2026年小米 MiMo V2.5 最新官方API定价与计费标准全面详解
先说几个核心判断:2026年5月27日,小米将MiMo V2.5 API的价格直接打到了地板价——每百万input tokens仅需1美元,output tokens每百万3美元,而且团队明确表态:这个价格永久有效。这意味着,过去那种“上下文越长、价格越离谱”的阶梯定价模式彻底翻篇了。无论你的prompt是几千token还是接近100万token,统统一个价。对大多数应用场景来说,结论很直接:MiMo V2.5已经跻身市面上最便宜的1M上下文模型前三名,而且这个地位短期内不会动摇。
TL;DR
- 2026年5月27日起,小米MiMo V2.5永久定价方案:input $1.00/百万tokens,output $3.00/百万tokens,cached $0.20/百万tokens,支持1M-token上下文窗口。
- 所谓“最高99%优惠”并非夸张。旧方案在超过256K input tokens后会大幅加价,新方案完全取消了这种阶梯倍率。
- Token Plan用户获得了5到8倍的额度提升,且有效期内已使用的额度全额返还。
- 这次降价是永久性的,不是限时促销。小米官方公告明确表示要“永久革新整个模型定价体系”。
- 背景补充:这是本周内第二家对旗舰模型进行永久性降价的中国实验室。三天前,DeepSeek刚刚把V4-Pro的永久价格降到了原价的四分之一。
2026年5月27日发生了什么
这次价格更新公告一共涉及三项调整,全部于北京时间5月27日零点(UTC时间5月26日16:00)正式生效。

第一,跨上下文窗口统一价格。 旧版MiMo V2.5采用的是阶梯费率:32K input tokens以内是基础价,32K到256K之间开始加价,超过256K的费率更高。新方案对所有token类型只设一个统一价格。长上下文应用终于不用再交那笔“长上下文税”了。
第二,永久性降价,不是促销。 公告里两次提到“永久降价”,一次提到“永久革新整个模型定价体系”。没有截止日期,没有回滚条款。这就是新的官方标价,请直接当作常态化定价来对待。
第三,Token Plan奖励重置。 如果你用的是小米的预付费额度系统(Token Plan),你的信用余额直接增加了5到8倍,而且有效期内已经消耗的每一分额度都全额返还。不过有效期本身没有延长——算是预算红利,但不是时间红利。

标题里“最高99%优惠”的说法放在长上下文场景下完全成立。之前256K+ input tokens的价格确实高得离谱,现在统一降到$1/M,等于降幅超过90%。对于原本就在基础层级跑的工作负载,降幅虽然没那么夸张,但也相当可观了。
最新的永久价格表
每100万tokens的价格(美元),立即生效且永久有效:
| 模型 | Input | Output | Cached | Context |
|---|---|---|---|---|
| MiMo V2.5 Pro | $1.00 | $3.00 | $0.20 | 1M tokens |
| MiMo V2 Flash | ~$0.10 | ~$0.40 | $0.02 | 256K tokens |
表格之外,有几个细节值得留意:
- 缓存费率(V2.5 Pro是$0.20/M)相当于input费率的五分之一。这个比例比不上DeepSeek的120:1(input-miss与input-hit之比)。小米的缓存对重复的system prompts当然有用,但绝对节省额度没那么大。
- 1M上下文窗口这一点,大多数文章都低估了它的价值。美国托管的旗舰模型,上下文上限大多在200K到400K之间。MiMo V2.5 Pro可以处理完整的文档,这才是它的杀手锏。
- 公告提到了V2.5 Omni和TTS变体,但没有详细列出具体价格,建议在平台上另行核实。
关于旧版V2-Pro的定价参考,可以查阅我们的MiMo V2-Pro & Omni 定价与 API 使用指南。
除了价格,MiMo V2.5还升级了什么
5月27日的公告本质上是一次定价调整,但V2.5本身相比4月发布的V2-Pro确实是一次重大升级。有三个变化值得关注:
- 更长的实际可用上下文。 V2.5 Pro保留了1M-token的理论窗口,但小米重点改进了200K到800K区间的检索质量——大多数长上下文模型在这个区间性能会明显下降。在800K tokens范围内,大海捞针(Needle-in-haystack)准确率保持在95%以上。
- 更好的tool-call格式合规性。 V2-Pro处理流式响应中的并行tool calls时,存在返回格式错误JSON的已知问题。V2.5虽然没完全根除这个问题,但故障率大幅降低。无论如何,还是建议自己做JSON schema验证。
- 更新的训练数据。 V2.5使用了截至2026年第一季度的数据进行训练,知识截止日期比V2-Pro领先大约三个月。
这些改进可能不是那种能上头条的基准测试数据,但它们在真实的生产部署中会实打实地体现出来。把更低的价格和更长、更可靠的上下文窗口结合起来,你会发现一个5月27日之前根本不存在的选项——适合严肃长文档工作的API。
MiMo V2.5 vs 竞品:怎么选?
有意思的对比不是V2.5和它自己旧版本的对比,而是和2026年5月在售的其他旗舰级API选项的对比:
| 模型 | Input ($/MTok) | Output ($/MTok) | Context |
|---|---|---|---|
| Xiaomi MiMo V2.5 Pro | $1.00 | $3.00 | 1M |
| DeepSeek V4-Pro | $0.435 | $0.87 | 128K |
| GPT-5.5 | $5.00 | $30.00 | 200K |
| Claude Opus 4.7 | $3.00 | $15.00 | 200K |
| Gemini 3.5 Flash | ~$1.50 | ~$9.00 | 1M |
三个关键结论:
- 按单token算,DeepSeek V4-Pro仍然比MiMo V2.5便宜。 Input便宜约2.3倍,output便宜约3.5倍。如果你只看原始token成本,DeepSeek占优。
- 但在1M上下文工作负载中,MiMo V2.5胜出。 表格里另一个1M上下文选项只有Gemini 3.5 Flash,但它的input贵1.5倍,output贵3倍。
- MiMo V2.5的input比GPT-5.5便宜5倍,output便宜10倍。 而根据Artificial Analysis的数据,两者基准测试性能相当。
关于DeepSeek的对比,可以看DeepSeek V4-Pro 75%降价现已转为永久。这两篇文章放在一起看会更有意思——都覆盖了本周中国实验室对旗舰级模型的永久性降价。
三个实际场景,三张新账单
用新的永久费率算三个具体案例:
1. 企业级PDF的长文档RAG。 每天50,000次查询,每次800K-token上下文,1K-token回答。用旧的MiMo V2.5长上下文层级(估计有效费率$50/M):每月约$60,000。新的统一费率:每月约$1,225。节省了$58,775/月。
2. 代码审查Agent。 每天5,000个pull requests,30K-token代码库上下文,2K-token评论输出。用旧的GPT-5.5:每月约$5,250。用新的MiMo V2.5:约$510。节省了$4,740/月。
3. 客户支持聊天机器人。 每天200,000轮对话,4K-token system prompt,300-token响应。用旧的Claude Opus 4.7:每月约$11,250。用新的MiMo V2.5:约$805。节省了$10,445/月。
第一个场景就是MiMo V2.5真正发力的地方。这次降价之前,长上下文任务在任何旗舰API上都贵得离谱。现在不一样了。以前必须送到摘要器和分块流水线的文档,现在可以直接整体扔给模型,再也不用做token预算的“体操”优化了。
关于缓存命中(Cache Hits)
$0.20/M的缓存输入费率比$1.00的缓存未命中费率便宜5倍。虽然比不上DeepSeek 120:1的缓存折扣,但对于任何复用稳定system prompt的Agent来说,这个节省依然可观。
举个例子。假设你的助手用一个6,000-token的system prompt,每天处理80,000轮对话,平均用户消息250 input tokens,平均响应600 output tokens:
- 无缓存命中:80,000轮 × 6,250 input × $1.00 / 1,000,000 = 仅input每天就$500。
- system-prompt前缀有60%缓存命中:80,000 × (250 × $1.00 + 6,000 × (0.6 × $0.20 + 0.4 × $1.00)) / 1,000,000 = 每天约$271。降幅46%。
虽然比不上DeepSeek缓存带来的88%降幅,但一个input成本$500/天的负载,减半也是实打实的真金白银。技巧和其他提供商一样:固定system prompt,稳定排序检索到的上下文,不要在回复前缀里注入每请求的时间戳。
什么时候选MiMo V2.5,什么时候不选
新的定价让MiMo V2.5成了两类工作负载的首选,但对另一类来说则是较差的选项。
推荐场景:
- 长文档RAG、代码库Agent、全库重构。 任何自然适合>200K-token context的任务。统一价格加上1M窗口,在廉价层级里是无敌的。
- 高吞吐量文档处理。 价格可预测,缓存费率($0.20/M)让你能廉价地批量处理相同前缀。
回避场景:
- 对延迟敏感的交互式聊天。 MiMo V2.5 Pro不是首个token响应最快的模型。对于预输入、自动补全或亚秒级聊天,DeepSeek V4-Flash或Gemini 3.5 Flash在相似成本下延迟表现更好。
注意事项:
- 数据驻留。 调用通过小米在中国的服务器路由。和DeepSeek一样的采购考量。
- 可靠性。 小米的第一方API运营历史比美国托管的旗舰模型短。对于有SLA保障的生产环境,建议通过OpenRouter或其他聚合器路由。
- 函数调用对齐。 在schema层面兼容OpenAI,但在流式工具参数和并行工具调用方面存在边缘情况。上线前务必测试。
关于V2.5之前的V2-Pro发布背景,可以看小米刚刚发布了自己的AI模型,且在OpenRouter上免费。关于免费层级的入门,小米MiMo Orbit免费100T token计划涵盖了资格和注册细节。
2026年LLM价格战的格局
MiMo V2.5是本周内第二家中国实验室进行的永久性旗舰级降价。DeepSeek在5月22日把V4-Pro永久降到了原价的四分之一。Kimi K2在Q1早些时候也降了价。OpenAI O3在2月份降价80%。模式很清楚:
- 中国实验室在价格上竞争。 这些降价不是促销噱头,是结构性的。
- 美国实验室在能力和捆绑上竞争。 OpenAI和Anthropic维持旗舰层级的价格,同时发布新功能(思考模式、MCP servers、Agent工作流)来证明溢价的合理性。
- 基准测试差距已经足够小,大多数工作负载都值得重新测试。根据Artificial Analysis的数据,在大多数编码和推理任务中,MiMo V2.5与GPT-5.5的差距仅在个位数百分点内。
更多信息:
- DeepSeek V4-Pro永久降价 —— 中国实验室的类似举动。
- Kimi K2 API定价 —— 2026年第三次重大的中国模型降价。
- OpenAI O3价格下调 —— 美国方面2月份的回应。
- Gemini 3.0 API成本 —— Google的层级策略。
- Claude API成本全解析 —— Opus、Sonnet和Haiku的定位。MiMo-7B处于不同生态位,详情见MiMo-7B-RL基准测试。
你的构建策略应该怎么调
MiMo V2.5的降价不是营销手段。这是对1M上下文层级的结构性重新定价,而且是永久性的。如果你之前因为成本原因推迟了长文档RAG、全库代码Agent或任何需要>200K-token context的工作负载,你上个季度估算的预算可能比这个季度的实际需求高出了一个数量级。
三个具体的行动步骤:
- 按token消耗量提取你排名前三的工作负载,用新的统一费率重新算一遍成本。那些跑长上下文的工作负载,结果会让你惊喜。
- 针对V2.5 Pro和你当前的模型,用同样的prompts做100个样本的评估。大多数团队会发现,质量区间对于70%到85%的流量是可以接受的。
- 搭建一个Apifox回归测试套件。这样下一次价格下调(肯定还有)的时候,评估工作只需要几小时,而不是几周。
价格底线又一次挪动了。请据此构建你的应用。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
Sentieon DNAscope Hybrid长短读长混合分析流程详解评测
一、前言 基因组学研究已进入下半场,精度与全面性成为临床诊断及群体研究的核心需求。然而,单一测序技术常常让人陷入选择困境:短读长测序(如 Illumina)准确性高、成本低廉,但在面对结构变异、重复序列和复杂区域时显得力不从心;长读长测序(如 Oxford Nanopore)虽能轻松跨越这些障碍,超
腾讯混元Hy3 preview 295B/21B MoE架构与上下文详解
摘要: 295B 21B MoE 是腾讯 2026 年 4 月发布的混元 Hy3 preview 的核心架构标识。本文解释参数总量与激活参数的含义、MoE 的工作机制、为什么 Hy3 preview 能原生支持 256K 上下文,并说明它在 TokenHub 上的完整能力支持与价格档位。 一、读懂
腾讯云AI业务流架构师训练营重塑编程与业务的新范式
AI业务流架构师训练营:在腾讯云上重塑编程与业务的新范式 到2026年,企业AI竞争的核心已不再是“拥有AI”,而是“谁的AI业务流架构更为高效”。这一转变彻底颠覆了传统编程模式。对于技术从业者而言,AI业务流架构师已成为舞台中央的关键角色——他们不再仅仅编写代码,而是将业务需求转化为自主运行的数字
推荐一款免费使用谷歌最新NanoBanana 2插件
谷歌近期推出了重磅更新——NanoBanana2模型正式登场。无论是在知识储备、图像生成质量、推理能力还是主体一致性方面,这一版本都实现了全面升级,堪称当前地表最强的AI生图模型之一。 生成速度直接减半,价格也同步腰斩,性价比表现极为突出。不过,国内用户想直接访问官方渠道依然困难重重,大部分路径都绕
企业生产管理系统选型排行榜
企业在进行生产管理系统选型时,往往容易陷入一个常见的思维误区:首先问“哪家功能更全面”。但从实际部署与落地效果来看,真正决定系统价值的,往往不是模块数量的简单堆叠,而是它是否真正贴合实际生产流程、能否支撑高效的跨部门协作、以及是否具备随业务变化持续迭代升级的能力。迈入2026年,制造企业对生产管理系
- 日榜
- 周榜
- 月榜
相关攻略
2026-06-07 17:05
2026-06-07 17:05
2026-06-07 17:05
2026-06-07 17:04
2026-06-07 17:04
2026-06-07 17:04
2026-06-07 17:04
2026-06-07 17:04
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

