OpenAI最强小型模型GPT-5.4 mini发布

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

OpenAI最强小型模型GPT-5.4 mini发布

热心网友时间：2026-05-24

转载

在追求极致性能的大模型竞赛中，OpenAI最近打出了一张令人意外的牌：GPT-5.4 mini。它没有盲目堆砌参数，而是精准地切入了一个被许多开发者长期诟病的痛点——如何在成本、速度和能力之间找到一个完美的平衡点。这款被官方定义为“最强小型模型”的新选手，似乎正是这个问题的答案。

简单来说，GPT-5.4 mini是一款为高吞吐量、低延迟场景量身打造的模型。它的核心卖点非常清晰：用接近顶级旗舰模型GPT-5.4的性能，但只收取其三分之一的价格，同时速度还比前代小型模型快上一倍不止。这种“加量还减价”的策略，无疑将搅动整个AI应用开发的市场格局。

GPT-5.4 mini的主要功能

那么，这款“小钢炮”具体能做什么？它的能力矩阵覆盖了当前最主流的几大应用方向：

编程开发：从定向代码编辑、代码库导航到前端生成和调试循环，它都能胜任。在衡量实际编程能力的SWE-Bench Pro基准测试中，54.4%的通过率已经非常接近满血版GPT-5.4的水平，足以应对大多数开发任务。
多模态理解：模型能够快速“看懂”复杂的用户界面截图并进行实时推理。在MMMUPro这类视觉推理基准测试中取得78%的成绩，证明了其处理图像信息的扎实功底。
计算机使用：这是迈向通用人工智能的关键一步。模型可以解析屏幕内容、定位界面元素，在OSWorld-Verified基准测试中达到72.1%的得分，与GPT-5.4的75%仅有毫厘之差。
工具调用：函数调用、网页搜索、文件检索等技能它都具备，在MCP Atlas工具调用测试中取得了57.7%的成绩，展现了良好的工具协同能力。
子智能体任务：它可以作为高效的“副手”，并行处理搜索代码库、审阅大文件等辅助性工作。关键在于，在Codex平台上执行这些任务时，它仅消耗GPT-5.4配额的30%，成本优势巨大。
长上下文处理：高达400K tokens的上下文窗口，让它能够从容应对长文档分析和复杂的多轮对话，信息处理容量不再是瓶颈。

关键信息与核心优势

将上述功能凝聚起来的，是几个硬核的技术与市场指标：

定位：OpenAI当前最强的小型模型，专为需要快速响应的场景优化。
速度：比上一代的GPT-5 mini快2倍以上，延迟显著降低。
性能：在编程、推理、多模态、计算机使用等核心任务上，表现无限接近GPT-5.4。
定价：输入每百万tokens 0.75美元，输出每百万tokens 4.50美元，价格约为GPT-5.4的三分之一。
接入：已全面上线API、Codex和ChatGPT平台，开箱即用。

将这些点串联起来，就构成了GPT-5.4 mini无可替代的三大优势：速度与性能兼得、极致的性价比、以及强大的多模态与长上下文能力。特别是它作为“子智能体”的优化设计，为构建“大模型决策+小模型执行”的高效、低成本多智能体系统提供了理想的基石。

如何使用GPT-5.4 mini

对于开发者而言，接入和使用方式非常灵活：

API调用：通过标准的OpenAI API即可调用，支持文本/图像输入、工具使用、函数调用等完整功能，充分利用其400K的长上下文优势。
Codex平台：模型已在Codex的应用、命令行工具及IDE扩展中全面集成。它默认仅消耗GPT-5.4配额的30%，非常适合配置为处理低强度推理任务的默认子智能体模型。
ChatGPT：免费版和Go用户可以直接通过“+”菜单中的“Thinking”功能使用。对于其他用户，它则会作为GPT-5.4 Thinking在遇到速率限制时的自动备选方案，确保体验的连贯性。

横向对比：市场中的位置

要看清它的价值，最好的方式是与同类竞品放在一起比较：

对比维度	GPT-5.4 mini (OpenAI)	Claude Haiku 4.5 (Anthropic)	Gemini 3 Flash (Google)
定位	最强小型模型	轻量快速模型	最快最便宜的模型
速度	比 GPT-5 mini 快 2 倍+	中等	最快
上下文窗口	400K tokens	200K tokens	100万 tokens
输出价格	$4.50/百万 tokens	约 $2.50/百万 tokens	约 $0.60/百万 tokens
SWE-Bench Pro (编程)	54.4%	未公开	未公开
Terminal-Bench 2.0	60.0%	41.0%	47.6%
OSWorld-Verified (计算机使用)	72.1%	50.7%	未公开
MCP Atlas (工具调用)	57.7%	34.6%	57.4%
GPQA Diamond (推理)	88.0%	73.0%	90.4%
多模态能力	强	中等	强

从对比中不难看出，GPT-5.4 mini走的是一条“均衡实力派”路线。它在价格上并非最低（Gemini 3 Flash更便宜），在单项推理上也不是最高（Gemini 3 Flash略胜），但其综合性能矩阵最为扎实，尤其是在编程、计算机使用等体现实际应用能力的项目上优势明显。而400K的上下文窗口，也使其在处理长文本任务时比Claude Haiku更具优势。