OpenAI发布GPT‑5.4旗舰AI模型 专为专业工作场景打造
GPT‑5.4是什么
如果说此前的AI模型还停留在“聪明地聊天”,那么GPT-5.4的登场,则标志着AI正式迈入了“可靠地干活”的新阶段。OpenAI将其定位为“专为专业工作设计的最强前沿模型”,这个定义绝非虚言。它首次将高阶推理、专业编程、原生计算机操作、深度网页搜索以及百万级别的上下文处理能力,无缝整合进一个单一模型,而且没有在任何单项性能上做出妥协。
这带来的结果是革命性的。在OSWorld电脑操作基准测试中,它以75%的成功率首次超越了人类平均水平;而在模拟真实知识工作的GDPval测试中,其83%的任务完成度达到甚至超过了专业人士的水准。更关键的是,它能够通过截图理解软件界面,并直接执行鼠标点击和键盘输入,独立完成跨应用的复杂工作流。这一切都指向一个清晰的结论:AI的能力焦点,正在从“回答问题”转向“完成任务”。
GPT‑5.4的主要功能
那么,这款“专业工作引擎”具体能做什么?其功能清单几乎覆盖了现代知识工作的全链条:
原生计算机操作:这是最具突破性的一点。模型能“看懂”屏幕截图,理解图形界面,并模拟人类的鼠标键盘操作。无论是整理数据、发送邮件还是操作网页应用,它都能像一位虚拟助手一样执行。在OSWorld测试中75%的成功率,意味着它在多数日常电脑任务上已经比普通人更可靠。
深度知识工作:它被设计用于处理44种不同职业的真实任务,从制作一份精美的PPT、进行财务建模与数据分析,到审阅复杂的法律文档。GDPval测试中83%的专家级达标率,足以证明其作为专业协作者的价值。
高阶编程与调试:继承了GPT-5.3-Codex的强大基因,并在其上进化。新增的Playwright Interactive功能允许开发者边写代码边进行可视化调试,甚至可以自动测试Web应用,极大提升了开发效率。
智能工具调用:模型引入了“工具搜索”机制,能按需查询外部工具的定义和用法,这使得它在执行多步骤任务时能灵活调用API,同时将相关Token消耗降低了47%,兼顾了能力与成本。
深度网页搜索:不再是一次性的简单查询。它能进行多轮、持续的搜索,主动筛选和整合信息,特别擅长处理那些“大海捞针”式的复杂信息检索任务,在BrowseComp测试中取得了82.7%的高分。
超长上下文处理:通过API,它能处理高达100万Token的上下文,足以一次性吞下整个项目的完整文档。同时,它支持输入高达1024万像素的高保真图像,为处理复杂图表和设计稿提供了可能。
实时任务调控:在执行复杂任务前,它会先展示一个清晰的“工作计划”;执行过程中,用户还能随时介入调整方向,而无需让整个任务推倒重来,交互更加人性化。
多模态视觉理解:其视觉推理、文档解析和界面识别能力得到了显著增强,为上述所有基于图像理解的操作打下了坚实基础。
GPT‑5.4的性能表现
功能强大与否,最终要靠硬核数据说话。GPT-5.4在多个维度的基准测试中都展现了碾压级的提升:
知识工作方面,在GDPval综合测试中,83.0%的任务达到专家水平,远超GPT-5.2的70.9%。在投行级别的表格建模任务上,成功率高达87.3%(GPT-5.2为68.4%)。由人类评审的PPT生成任务中,68%的评审者更偏好GPT-5.4的产出。
计算机操作领域,它的进步堪称飞跃。在OSWorld-Verified测试中以75.0%的成功率首次超越人类基线(72.4%),而GPT-5.2仅为47.3%。在纯靠截图操作网页的Online-Mind2Web测试中,更是达到了惊人的92.8%。
编程能力上,它在SWE-Bench Pro上以57.7%的通过率略超专门的代码模型GPT-5.3-Codex,同时延迟更低、Token效率更高。
工具与搜索是其另一大亮点。BrowseComp测试得分82.7%,较前代提升近17个百分点;多步骤工具调用的准确率(Toolathlon)也提升至54.6%。更重要的是,借助新的工具搜索机制,在保持同等准确率的前提下,相关Token消耗降低了47%。
在考验“智商”的学术与推理测试中,它的表现同样耀眼:GPQA Diamond科学问答接近满分(92.8%);在高难度综合测试Humanity‘s Last Exam中达到52.1%;而在衡量抽象推理能力的ARC-AGI-2测试中,得分跃升至73.3%,远超GPT-5.2 Pro的54.2%。
最后是可靠性,这或许是专业应用中最关键的指标。GPT-5.4的单条事实错误概率降低了33%,完整回答的出错率降低了18%,成为OpenAI迄今为止事实准确性最高的模型。
如何使用GPT‑5.4
对于大多数用户而言,最直接的体验途径是通过ChatGPT。GPT-5.4已经向ChatGPT Plus、Team和Pro用户开放,并替代了之前的GPT-5.2 Thinking,成为默认的思考模型。只需访问官网或使用App即可。
开发者则可以通过OpenAI API进行调用。使用API密钥访问 gpt-5.4 或 gpt-5.4-pro 模型端点,即可利用其百万Token上下文和工具搜索等全部高级功能,费用按实际Token使用量计算。
如果是专注于编程,可以访问Codex平台。输入 /fast 命令开启加速模式,或者使用实验性的100万Token上下文窗口来处理大型代码项目,还能体验Playwright Interactive可视化调试功能。
GPT‑5.4的产品定价
目前主要通过两种方式提供服务:
ChatGPT订阅制:Plus或Business订阅包含GPT-5.4 Thinking模型,每周有3000次使用额度;而Pro订阅则包含功能更强大的GPT-5.4 Pro模型,且没有使用次数限制。
API按量计费:对于标准版GPT-5.4,输入Token费用为每百万2.5美元,缓存输入每百万0.25美元,输出为每百万15美元。性能更强的GPT-5.4 Pro版本,输入输出费用更高,分别为每百万30美元和180美元。
GPT‑5.4的应用场景
如此强大的能力,将首先在哪些领域落地?从目前展示的特性来看,以下几个场景的变革近在眼前:
办公自动化:制作PPT、财务建模、数据分析、文档处理等重复性知识工作,将迎来一位不知疲倦的专家级助手。
智能Agent:能够自主操作电脑,完成跨应用的序列任务,例如自动发送邮件、填写在线表单、调度日程、进行批量数据录入等,实现真正的“数字员工”。
软件开发:从全栈代码生成、审查到Bug修复,配合边写边测的交互调试,它甚至能独立构建复杂的Web应用或小游戏,极大提升开发效率。
企业流程:通过API接入企业内部系统,可以扮演RPA(机器人流程自动化)的角色,自动化处理税务申报、合同审核、客户服务等长周期、多步骤的复杂流程。
深度研究:对于需要从海量网络信息中筛选、比对和验证的复杂研究课题,它的多轮深度网页搜索与信息整合能力将成为研究者的利器。
总而言之,GPT-5.4不仅仅是一次模型迭代,它更像是一个明确的信号:AI正在从一个被动的问答工具,转变为一个能主动理解环境、操作工具、执行复杂任务的智能体。专业工作的范式,或许真的要改变了。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
北大与字节开源实时长视频生成模型Helios详解
Helios是什么 在AI视频生成领域,如何兼顾生成速度与画面质量一直是核心挑战。近期,由北京大学联合字节跳动等顶尖团队共同研发的Helios模型,为这一难题提供了突破性的解决方案。这款拥有140亿参数的大模型,仅需单张H100 GPU,就能以高达19 5 FPS的实时速度生成分钟级长视频。其卓越性
浪潮信息开源多模态基础模型Yuan3.0 Ultra详解
Yuan3 0 Ultra是什么 在通往通用人工智能的探索中,模型规模与性能往往紧密关联。然而,浪潮信息YuanLab ai团队最新开源的Yuan3 0 Ultra模型,为我们提供了全新的视角。这个总参数量高达1 01万亿的巨型模型,并非盲目追求参数扩张,而是创新地采用了混合专家架构,将每次推理的激
OpenAI发布GPT‑5.4旗舰AI模型 专为专业工作场景打造
GPT‑5 4是什么 如果说此前的AI模型还停留在“聪明地聊天”,那么GPT-5 4的登场,则标志着AI正式迈入了“可靠地干活”的新阶段。OpenAI将其定位为“专为专业工作设计的最强前沿模型”,这个定义绝非虚言。它首次将高阶推理、专业编程、原生计算机操作、深度网页搜索以及百万级别的上下文处理能力,
掌阅科技泡漫平台一站式AI漫剧生成工具详解
泡漫是什么 如果你留意近两年内容创作领域的变革,会发现一个显著趋势:人工智能正以前所未有的深度重塑内容生产流程。而“泡漫”,正是这股AI浪潮中一个极具代表性的创新平台。 简而言之,泡漫是掌阅科技旗下推出的一站式AI漫剧智能生成平台。其核心目标非常明确——运用前沿AI技术彻底革新漫画与短剧的创作模式,
AI面试模拟工具:智能追问与深度解答备考指南
播面是什么 如果你已经厌倦了对海量文字资料进行机械记忆,并在面试关键时刻感到无从说起,那么“播面”这一创新学习模式,或许能为你打开全新的备考视角。简而言之,播面是一个将经典技术面试题目转化为系统化音频课程的知识平台。其核心理念非常清晰:通过聆听,掌握面试精髓。 试想一下,那些涉及Java、Sprin
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

