GPT-5.4 系列上新:更小模型性能逼近旗舰,成本仅三分之一
3月18日消息,今日,OpenAI推出GPT-5.4 mini和GPT-5.4 nano模型。这两款模型针对快速、大批量AI工作负载设计,属于低成本的大语言模型产品。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
适用于AI工作流的小型模型
对许多AI工作流而言,高效的模型通常需要在性能、响应速度及工具调用能力之间取得平衡。
OpenAI表示:“这些模型专为对延迟敏感的工作负载设计,在此类场景中,延迟直接影响产品体验。例如:需要快速响应的编程助手、执行辅助任务的子智能体 (Subagents)、捕捉并解读屏幕内容的计算机操作系统,以及能对图像进行实时推理的多模态应用。”
该公司指出:“在这些应用场景中,适用的模型往往并非参数规模最大的,而是响应迅速、能稳定调用工具,且在专业任务中表现正常的模型。”
相较于GPT-5 mini,GPT-5.4mini在编程、推理、多模态理解及工具使用方面有所提升,运行速度约为前者的两倍。
GPT-5.4 nano则是体积更小、速度更快的版本,主要针对分类、数据提取、排序及较简单的编程辅助任务。
性能表现
在评估体量较小、成本较低的模型时,性能和性价比是主要参考指标。OpenAI列举了新模型相较于旧模型的测试数据:
• 在SWE-bench Pro基准测试中,GPT-5.4 mini得分为53.40%,而GPT-5 mini为45.69%。
• 在Terminal-Bench 2.0测试中,GPT-5.4 mini达到59.30%,而GPT-5 mini为38.20%。
• 在GPQA Diamond测试中,GPT-5.4 mini得分为85.48%,接近GPT-5.4的93.00%。
•OSWorld-Verified结果显示,GPT-5.4 mini得分为70.60%,高于GPT-5 mini的42%。

测试结果显示,GPT-5.4 mini的通过率接近GPT-5.4的水平,且执行速度更快。在衡量模型正确解决问题能力的基准测试中,轻量级的GPT-5.4 mini与全功能版GPT-5.4表现相近。

GPT-5.4 nano的表现则介于上述两者之间。例如,其在SWE-bench Pro上得分为52.39%,在Terminal Bench 2.0上为46.30%。数据低于GPT-5.4 mini,但高于GPT-5 mini。
子智能体与多模态任务
在智能体生态系统中,AI的架构可以模拟现实中的协作模式。例如,将能力较强的AI模型(如GPT-5.4 Thinking)与速度较快、低成本的模型(如GPT-5.4 mini)结合使用,类似于资深工程师带领初级工程师协同工作。
智能体系统可组合不同规模的模型,由大模型负责任务规划,小模型负责执行子任务。在此语境下,GPT-5.4 mini可承担子智能体的工作,例如搜索代码库、审查文件及处理文档。
OpenAI表示:“GPT-5.4mini具备多模态任务处理能力,适用于涉及计算机使用的任务。该模型能解读密集型用户界面的截图,以辅助完成计算机操作任务。”
可用性与定价
GPT-5.4 mini现已通过API、Codex和ChatGPT多个版本提供。免费版和Go级用户可通过附加菜单中的“Thinking”选项调用GPT-5.4 mini。OpenAI表示:“对于其他所有用户,GPT-5.4 mini将作为GPT-5.4 Thinking 触发速率限制后的备选模型。”
该公司表示,针对程序员,GPT-5.4 mini 已覆盖Codex 应用、命令行界面 (CLI)、集成开发环境 (IDE) 扩展及网页端。OpenAI 指出,这款mini 模型“仅消耗GPT-5.4配额的30%,让开发者能在Codex 中以约三分之一的成本处理简单编程任务”。此外,Codex 还可将任务委托给GPT-5.4 mini 子智能体,从而让推理强度较低的工作在低成本模型上运行。
成本对比数据如下:
• GPT-5.4 mini 定价为每百万输入Token 0.75美元,每百万输出Token 4.50美元,拥有40万词的上下文窗口 (Context Window)。
• GPT-5.4 nano 仅通过 API 提供,价格为每百万输入 Token 0.20美元,每百万输出 Token 1.25美元。
相比之下,GPT-5.4的定价为每百万输入 Token 2.50美元,每百万输出 Token 15.00美元。
客户测试反馈
科技公司 Hebbia 致力于开发帮助专业人士利用自然语言处理文档库的工具。其产品主要应用于金融、法律和科研等需要同时分析多份文档的领域。
Hebbia 首席技术官 AabhasSharma 表示:“在同类模型中,GPT-5.4 mini 提供了较为稳定的端到端性能。在我们的评估中,它在部分输出任务和引用召回率上的表现达到了预期,且成本有所降低。此外,其端到端通过率和来源归因能力在部分测试中高于体量更大的 GPT-5.4模型。”
数字工作区 Notion 是一款常用的生产力工具(本文即在 Notion 中撰写)。该软件为结构化和非结构化数据提供了统一平台,用户可利用其构建零代码的信息管理微应用,用于追踪文章创作、内部项目等。
Notion AI 工程负责人Abhisek Modi 表示:“GPT-5.4 mini 在处理定义明确的任务时,表现出较高的精准度。在页面编辑方面,它处理复杂格式的能力接近 GPT-5.2,而算力消耗相对较低。”
Modi 补充道:“此前,通常只有旗舰模型才能稳定处理智能体工具调用 (Agentic Tool Calling)。目前,像 GPT-5.4 mini 和 nano 这样的小型模型也具备了相关能力。这将便于用户在 Notion 上构建自定义智能体 (Custom Agents) 时选择合适的模型。”(易句)
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
百度贴吧禁人类发帖引争议:仅限AI交流,客服回应跟进措施
3月28日消息,近日,百度贴吧中的抓虾吧因其独特的运行规则引发了广泛关注。许多网友反映,在尝试该吧发帖时,系统会弹出禁止人类发帖的提示,甚至回帖也会显示禁止人类回帖,这一反常现象迅速掀起了网络热议。
男子踏空坠亡案家属获赔,起诉物业索赔百万
3月28日消息,一名男业主在经过小区正在施工的阶梯时,因全程低头看手机而不慎一脚踏空。事故发生半个多小时后才被路人发现送医,遗憾的是,该男子最终抢救无效不幸身亡。面对突如其来的噩耗,沉浸在悲痛中的家
盘古大模型负责人离职,揭秘华为诺亚方舟实验室主任的晋升传奇
3月28日消息,华为诺亚方舟实验室主任、盘古大模型负责人王云鹤今天在朋友圈宣布离职,但他并未透露接下来的去向,以下是他的原文:8年了,准确来说是9年了(2017年北京第一个实习生),怀着不舍的心告别
特朗普白宫演讲中断,再度盛赞金色拖拉机全场瞩目
3月28日消息,当地时间3月27日,美国总统特朗普现身白宫杜鲁门阳台,面向数百名农民、农牧场主及企业高管发表助农相关讲话,期间被现场一台金色拖拉机牢牢吸引,忍不住连连夸赞。当天特朗普重点宣讲政府惠农
周杰伦公开求婚细节:服务员都是我请来的演员
周杰伦在为新专辑《太阳之子》宣传时,首次公开了当年向昆凌求婚的细节,直言那是一场精心策划的“演员大戏”。他透露,当时特意在英国租下一座古堡,并在里面临时搭建了一间餐厅。为了让这场求婚完美进行,他甚至
- 日榜
- 周榜
- 月榜
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程

