GPT-5.4正式发布:原生支持计算机操控与专业级编码能力
今天,OpenAI正式揭开了GPT-5.4系列模型的面纱。这次发布包含两个版本:面向ChatGPT和API的GPT-5.4 Thinking,以及专为复杂任务设计的GPT-5.4 Pro。可以说,这是OpenAI首次将尖端的推理、编码和智能体能力,整合进一个统一的模型架构里,目标直指提升专业工作的效率与精准度。

核心功能升级
在ChatGPT里,GPT-5.4 Thinking带来了一个颇具巧思的新功能——“思考过程预览”。当处理复杂问题时,模型会预先展示它的推理路径。这意味着用户可以在它生成最终答案的中途,实时介入并调整方向,从而减少来回沟通的拉锯战,更快地锁定理想结果。据了解,这个功能已经在网页版和安卓应用上线,iOS版本也即将推出。

新模型在深度网络研究能力上也下了功夫,尤其是在处理那些高度具体、需要长上下文连贯性的查询时,表现更为稳健。对于需要“长时间思考”的问题,GPT-5.4 Thinking能更好地记住对话的前因后果,确保给出的答案自始至终都紧扣主题,不会跑偏。
而在Codex和API层面,GPT-5.4实现了一个关键突破:它成为了OpenAI首个具备原生计算机使用能力的通用模型。简单说,它现在能看懂屏幕截图,并理解键盘、鼠标指令,从而操作计算机,完成跨多个应用的复杂工作流。配合高达100万tokens的上下文窗口,智能体现在有能力去规划、执行并验证那些周期更长的任务了。
知识工作表现显著提升
在专业工作领域,GPT-5.4的进步是实实在在的。根据OpenAI在44个职业领域的GDPval基准测试,GPT-5.4在83.0%的项目上已经达到或超过了行业专业水平。作为对比,前代GPT-5.2的这个数字是70.9%。

具体到任务上,在内部进行的投行级电子表格建模测试中,GPT-5.4的平均得分达到了87.3%,远高于GPT-5.2的68.4%。在演示文稿制作上,评审者明显更青睐GPT-5.4的产出(偏好度68.0% vs. 32.0%),优势主要体现在更强的美学设计、更丰富的视觉变化以及对生成图像的更有效运用上。

更值得一提的是准确性。GPT-5.4堪称OpenAI迄今为止“事实性”最强的模型。相比GPT-5.2,其单个陈述的错误率降低了33%,而一个完整回答中间出现任何错误的可能性则降低了18%。
计算机使用与视觉能力
GPT-5.4在“动手操作”计算机方面表现惊人。在OSWorld-Verified基准测试(通过截图和键鼠指令操作PC桌面环境)中,它实现了75.0%的成功率,不仅大幅超越GPT-5.2的47.3%,甚至略微超过了人类72.4%的平均表现。

在浏览器操作测试中,GPT-5.4结合DOM和截图进行交互时,在WebArena-Verified上成功率达到67.3%(GPT-5.2为65.4%)。而在仅观察截图的Online-Mind2Web测试中,其成功率高达92.8%,显著优于ChatGPT Atlas智能体模式的70.9%。

视觉理解能力同样有提升。在MMMU-Pro视觉理解与推理测试中,GPT-5.4取得了81.2%的成功率,优于前代的79.5%。在OmniDocBench文档解析测试中,其平均错误率降至0.109(GPT-5.2为0.140)。

编码能力与工具生态
编码方面,GPT-5.4融合了GPT-5.3-Codex的优势,在SWE-Bench Pro基准上与之持平甚至表现更优,同时延迟更低。Codex中的“/fast”模式还能将token处理速度提升1.5倍,且智能水平不打折扣。

新增的“工具搜索”功能让模型能更高效地调用各种工具。在Scale的MCP Atlas基准测试中,启用该功能后,在保持相同准确率的前提下,总token消耗量减少了47%。同时,在Toolathlon基准(测试智能体使用真实世界工具和API完成多步骤任务)上,GPT-5.4能用更少的交互轮次实现更高的准确率。
网络搜索能力也同步增强。在BrowseComp基准(测试持续浏览网络寻找难以定位信息的能力)上,GPT-5.4的性能较GPT-5.2提升了17个百分点,而GPT-5.4 Pro更是创下了89.3%的新纪录。

安全性与可用性
安全性方面,GPT-5.4延续了GPT-5.3-Codex的防护措施,并引入了一项新的开源评估“CoT可控性”。测试发现,GPT-5.4 Thinking对其思维链的控制能力较低,这反而有利于进行安全监控。

定价策略上,GPT-5.4 API的每token单价确实高于GPT-5.2,但由于其更高的token效率,许多任务的总token消耗会降低,从而可能节省总体成本。批量处理和Flex定价为标准费率的一半,而优先处理则为标准费率的两倍。
发布计划
从即日起,GPT-5.4 Thinking将面向ChatGPT Plus、Team和Pro用户开放,并取代原有的GPT-5.2 Thinking。GPT-5.2 Thinking将在模型选择器的“遗留模型”部分保留三个月,直至2026年6月5日退役。Enterprise和Edu计划用户可通过管理员设置启用早期访问。GPT-5.4 Pro则面向Pro和Enterprise计划用户开放。
在API中,GPT-5.4将以gpt-5.4名称提供,而GPT-5.4 Pro则以gpt-5.4-pro名称提供给需要极致性能的开发者。Codex中的GPT-5.4还支持100万上下文窗口的实验性功能。
总体来看,GPT-5.4是OpenAI首个融合了前沿编码能力,并在ChatGPT、API和Codex三大平台同步推出的主流推理模型。这也预示着,未来的Instant模型和Thinking模型可能会以不同的节奏和路径继续演进。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
OpenAI调整ChatGPT购物计划取消直接结账功能
去年9月,OpenAI曾高调推出“即时结账”功能,试图让用户直接在ChatGPT的聊天窗口里完成购物。这被外界视为其进军电商、打造“对话式购物”体验的关键一步。然而,事情的发展似乎并未按剧本走。 根据The Information的最新报道,OpenAI正在对其ChatGPT的电商战略进行重大调整,
谷歌与OpenAI员工联名反对美军放宽AI武器限制
3月5日,一则来自科技媒体Techradar的报道,在硅谷乃至全球科技伦理领域投下了一枚重磅冲击波。近千名来自谷歌与OpenAI的员工,这两个在人工智能赛道激烈角逐的对手,罕见地联名发表了一封公开信,共同敦促其公司管理层抵制美国军方要求放宽AI使用限制的压力。信中那句“我们绝不分裂”的表态,掷地有声
谷歌网站惩罚机制解析与应对策略
Google在I O大会上推出AI全家桶,将Gemini深度融入搜索等核心产品。新的AI搜索模式直接生成答案,取代传统链接列表;生成式UI可创建动态交互应用,改变信息呈现方式。智能体GeminiSpark能实时监控并自动推送信息,网页正变为AI数据源。这一变革可能终结传统网页浏览,推动搜索向智能交互转变。尽管App凭借复杂功能仍具优。
微软Bing Video Creator免费接入Sora 2 AI视频生成模型
2025年3月6日,微软宣布了一项重要更新:其必应视频创作者服务现已全面集成OpenAI最新发布的Sora 2视频生成模型,为用户带来更强大的AI视频制作体验。 这项服务于去年6月首次推出。在当时,许多在线AI视频生成工具仍主要面向付费用户。微软通过必应平台,率先向所有用户免费开放了基于初代Sora
谷歌AI Agent全家桶发布 智能体应用全面升级
谷歌I O大会聚焦智能体生态,推出Gemini3 5Flash等模型,强调高性价比与多模态能力。搜索迎重大升级,支持多模态输入并集成AI购物助手。个人智能体GeminiSpark可全天候处理任务,Antigravity平台则支持多智能体协作。硬件方面推出智能眼镜。整体策略转向构建覆盖多场景的智能体操作系统。
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

