当前位置: 首页
科技数码
GPT-4.5专业任务达人类专家水平,OpenAI发布新版模型

GPT-4.5专业任务达人类专家水平,OpenAI发布新版模型

热心网友 时间:2026-03-06
转载

来源:环球网

【环球网科技综合报道】3月6日消息,据TechCrunch报道,OpenAI今日正式发布GPT-5.4系列人工智能模型,包含面向ChatGPT和API的GPT-5.4+Thinking版本,以及针对复杂任务打造的GPT-5.4+Pro版本。这是该平台首次将前沿推理、编码与智能体能力整合于单一模型,在计算机原生操控、专业知识工作处理、长上下文理解等方面实现多项升级,进一步提升了人工智能在专业工作场景中的效率与准确性。


此次发布的GPT-5.4系列模型带来多项核心功能升级。其中,GPT-5.4+Thinking在ChatGPT中新增“思考过程预览”功能,处理复杂查询时可提前展示推理思路,用户能在响应过程中实时调整需求方向,减少沟通成本,该功能已登陆网页版和Android应用,iOS版本也将很快推出。针对深度网络研究需求,新模型强化了长上下文连贯性,面对需要长时间思考的问题,能更好地衔接对话前序步骤,保障答案的相关性与一致性。值得关注的是,GPT-5.4成为OpenAI首个具备原生计算机使用能力的通用模型,可通过截图识别和键盘鼠标指令完成计算机操作,实现跨应用的复杂工作流程处理,同时该系列模型支持高达100万tokens的上下文窗口,为智能体规划、执行和验证长周期任务提供了基础。

在专业知识工作表现上,GPT-5.4实现大幅突破。据OpenAI测试数据显示,在44个职业领域的GDPval基准测试中,该模型有83.0%的项目达到或超过行业专业水平,相较于前代GPT-5.2的70.9%提升显著。在投行级电子表格建模任务中,GPT-5.4平均得分87.3%,远高于GPT-5.2的68.4%;演示文稿生成方面,68.0%的评审者更认可GPT-5.4的作品,其在美学设计、视觉变化和图像生成运用上表现更优。同时,GPT-5.4成为OpenAI迄今事实准确率最高的模型,相比GPT-5.2,单个陈述错误率降低33%,完整回答出现任一错误的可能性降低18%。

计算机使用与视觉感知能力的提升,是GPT-5.4的重要亮点。在OSWorld-Verified计算机桌面操作基准测试中,该模型成功率75.0%,不仅远超GPT-5.2的47.3%,还超过了人类72.4%的表现;WebArena-Verified浏览器使用测试中,结合DOM和截图驱动交互的成功率达67.3%,Online-Mind2Web测试中仅凭截图交互的成功率更是高达92.8%。视觉理解与推理方面,GPT-5.4在MMMU-Pro测试中成功率81.2%,OmniDocBench文档解析测试中平均错误率降至0.109,均较前代模型有明显优化。

编码能力与工具生态适配性也迎来升级。GPT-5.4融合了GPT-5.3-Codex的编码优势,在SWE-Bench+Pro基准测试中表现持平或更优,且延迟更低,Codex中的“/fast”模式还能让token速度提升1.5倍。新增的“工具搜索”功能,让模型能更高效地适配各类工具,在Scale的MCP+Atlas基准测试中,启用该功能后总token消耗量减少47%,同时在Toolathlon智能体工具使用测试中,实现了更少交互轮次与更高准确率的双重提升。此外,模型的网络搜索能力进一步增强,BrowseComp基准测试中性能较GPT-5.2提升17个百分点,GPT-5.4+Pro更是创下89.3%的新高。

在安全性与可用性层面,GPT-5.4延续了GPT-5.3-Codex的安全防护措施,还引入开源的“CoT可控性”评估体系,测试显示其思维链控制能力较低,更利于安全监控。定价方面,GPT-5.4+API的单token价格高于前代,但更高的token效率有效降低了多数任务的总消耗,平台还推出批量处理、Flex定价为标准费率一半,优先处理定价为两倍的差异化方案,满足不同用户需求。

据悉,GPT-5.4+Thinking即日起面向ChatGPT+Plus、Team和Pro用户开放,替代原有的GPT-5.2+Thinking,后者将作为“遗留模型”保留三个月,至2026年6月5日正式退役;Enterprise和Edu计划用户可通过管理员设置开启早期访问,GPT-5.4+Pro则面向Pro和Enterprise计划用户开放。API端,GPT-4以gpt-5.4名称提供支持,GPT-5.4+Pro以gpt-5.4-pro名称面向有极致性能需求的开发者开放,Codex中的GPT-5.4还支持1M上下文窗口的实验性功能。(纯钧)

来源:https://www.163.com/dy/article/KNB7M5400514R9OJ.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
曹操出行耀出行成为濮院电竞节官方指定高端出行服务商

曹操出行耀出行成为濮院电竞节官方指定高端出行服务商

曹操出行旗下高端品牌“耀出行”成为2026濮院电竞节官方指定高端出行合作伙伴。赛事期间,耀出行为全球选手、解说及嘉宾提供贵宾级出行服务,通过精准路线规划避开拥堵与人群。服务依托极氪009豪华商务车的静音私密座舱,以及双语管家、无缝接驳等专业软性支持,确保贵宾全程尊享体验。

时间:2026-05-18 15:22
Akamai收购LayerX强化网络安全布局五年完成四项战略并购

Akamai收购LayerX强化网络安全布局五年完成四项战略并购

Akamai计划收购以色列企业浏览器安全公司LayerX,以扩展其安全边界至浏览器层面,从而有效管控员工使用AI工具等行为。LayerX兼容主流浏览器,兼顾安全与体验。这是Akamai五年内在特拉维夫完成的第四项网络安全收购,旨在整合技术构建覆盖用户、应用和基础设施的AI安全管控体系。

时间:2026-05-18 15:22
特斯拉德州测试跑道曝光 Roadster新车发布时间引关注

特斯拉德州测试跑道曝光 Roadster新车发布时间引关注

近日,特斯拉得克萨斯州超级工厂的一项新基建进展引发行业关注:厂区外围正在加速建设一条全新的专用车辆测试跑道。从已披露的现场信息来看,这条跑道并非普通厂区道路,其整体规格与布局设计均指向更高阶、更专业的工程验证用途。 根据最新流出的航拍影像,该测试跑道目前已初具规模。其规划清晰,路面铺设与附属设施完备

时间:2026-05-18 13:17
手动挡汽车为何逐渐消失 驾驶环境变化让多数司机难以适应

手动挡汽车为何逐渐消失 驾驶环境变化让多数司机难以适应

你是否注意到,如今道路上手动挡车型的身影正逐渐稀少?在新车市场中,自动挡几乎已成为标准配置。许多人将其简单归结为“手动挡技术落后”,然而背后的原因,远比这更为复杂。 相比之下,自动挡的操作逻辑则直观许多。只需挂入D挡,车辆便能平稳起步与行驶,驾驶者完全无需关注离合器踏板与结合点。尤其在拥堵频繁的城市

时间:2026-05-18 13:17
苹果自研基带2026年启用 iPhone 18系列将全面搭载

苹果自研基带2026年启用 iPhone 18系列将全面搭载

苹果公司正加速推进其核心供应链的自主化战略,并已进入关键实施阶段。综合多方行业信息,苹果计划于2026年推出的iPhone 18系列所有机型,将全面搭载其自主研发的调制解调器芯片。此举标志着苹果将结束在手机核心通信组件上长期依赖外部供应商的历史。业界与消费者共同关注的核心在于:这一自研基带的集成,能

时间:2026-05-18 12:46
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程