数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

科技数码

GPT5.5深夜炸场，这次OpenAI又行了

GPT5.5深夜炸场，这次OpenAI又行了

热心网友时间：2026-04-25

转载

GPT-5.5深夜突袭：OpenAI打了个漂亮的翻身仗

出品｜虎嗅科技组

作者｜赵致格

编辑｜苗正卿

头图｜视觉中国

还记得OpenAI CEO奥特曼那段著名的“吓瘫”论吗？他曾用“看到原子弹爆炸”来形容初次体验GPT-5的震撼。结果呢？期待越高，落差越大，那段夸张描述反倒成了网友反复调侃的梗。

不过，这次情况不同了。4月24日，OpenAI毫无预告地在半夜甩出了GPT-5.5。没有天花乱坠的铺垫，惊喜却实实在在。官方将其定位为“面向实际工作和智能体的新型智能”，主攻Agent编程、知识工作和科学研究。目前，ChatGPT和Codex的Plus、Business、Enterprise用户已经能用上，API也将紧随其后。

虽然这次没人被“吓瘫”，但看看第三方评测的分数就明白了：GPT-5.5的综合表现相当亮眼。它不仅比自家的GPT-5.4进步了一大截，在多个关键领域也超越了Claude Opus 4.7、Gemini 3.1 Pro这些老对手。可以说，在过去一段时间里饱受质疑的OpenAI，这回算是打了一场漂亮的翻身仗。

性能实测：多项领先，编程与安全是亮点

先看硬指标。在OpenAI内部用于评估20小时长周期软件工程的Expert-SWE测评中，GPT-5.5的成功率达到了惊人的73.1%，显著高于上一代GPT-5.4的68.5%。

这还不是全部。在衡量复杂命令行工作流的Terminal-Bench2.0测试中，GPT-5.5评分高达82.7%，远高于Claude的69.4%。此外，无论是知识工作任务（GDPval）、高级数学测试（FrontierMath），还是衡量真实电脑操作能力的OSWorld-Verified，GPT-5.5的评分都稳稳压过竞争对手一头。

编程能力方面，GPT-5.5表现不俗，但Opus 4.7在SweetBench Pro测试中依然保持领先，得分64.3%高于GPT-5.5的58.6%。不过，OpenAI对此也有话要说：公司指出，行业报告已显示该评测存在过拟合问题，未必能真实反映编程能力。

另一个显著提升的维度是网络安全。在CyberGym测试中，GPT-5.5拿下81.8%的得分，超过了Opus 4.7的73.1%。在CTF“夺旗”挑战中，它的得分也达到了88.1%，高于GPT-5.4的83.7%。

核心进化：从“参谋”到“执行者”

当然，OpenAI更乐于强调的，是GPT-5.5定位的转变。它不再只是一个聪明的聊天对象，而是被设计成“专为真实工作和智能体任务打造”的模型。用官方账号的话说，它“旨在理解复杂目标、使用工具、检查其工作，并将更多任务进行到底”，这标志着“完成计算机工作的全新方式”。

翻译成更直白的大白话就是：这次升级让GPT获得了“自己动手”的能力。它正在从辅助人类决策的“参谋”，转向参与实际执行的“员工”。你大可以把一个混乱复杂的任务直接丢给它，GPT-5.5能自己理解目标、拆解步骤、调用工具、修正过程，最后把结果交到你手上。

为了证明这一点，OpenAI还公布了内部的使用数据：目前公司超过85%的员工每周都在跨部门使用搭载GPT-5.5的Codex。更直观的是，财务团队已经用它完成了24771份、总计超过7万页的税表审核工作，完工时间比往年足足提前了两年。

不过，这次升级似乎还没做到让人类完全“放手”。多个第三方评测都提到了一个特点：GPT-5.5对任务边界的依赖更强。如果需求描述模糊不清，它不会主动帮你补充完善，而是会严格按照现有信息去执行。这种“高度服从”在某些需要创造性的场景下，反而可能成为一种局限。

效率与成本：更聪明，却未必更“贵”

AI领域有个常见的两难选择：智慧和速度往往不可兼得。模型更大、参数更多，通常意味着更长的思考时间。但GPT-5.5这次打破了这个惯例——在智能水平大幅提升的同时，其真实服务响应速度却与GPT-5.4保持了一致。

另一个关键特征是“省”。GPT-5.5将Token消耗降低到了前一代的三十六分之一。在同类Codex任务中，它也用更少的Token就能搞定。这意味着，尽管此次API价格大幅上调（每百万Token 5美元，Pro版30美元），但由于效率提升和消耗锐减，用户实际增加的成本可能非常有限。

OpenAI联合创始人格雷格·布罗克曼谈及这一点时表示，公司的目标始终是“让企业和普通用户都能用上更前沿的AI能力”。

行业格局：对手的烦恼与OpenAI的算力牌

当OpenAI凭借新模型重回聚光灯下时，它的老对手Anthropic最近的日子却有点不好过。这家长期主打“安全牌”的公司近期爆出了安全丑闻，同时对重度付费用户严厉限流、大面积无差别封号等操作也引发了巨大争议。日益高企的Token费用和消耗，更是让许多用户直呼“用不起”。

此前，OpenAI在内部邮件中曾直言，自己相对于Anthropic的核心优势是“算力”。如今，随着算力充足的OpenAI大秀肌肉，而Anthropic在算力吃紧中用户体验不断打折，这两位一度“贴身肉搏”的巨头，其发展轨迹似乎正在悄然拉开差距。

来源:https://www.163.com/dy/article/KRBBO99K051188EA.html

上一篇：龙虎榜 | 9.92亿资金爆买大族激光，深股通卖出！深南东路猛攻百川股份

下一篇：推动人工智能赋能女性发展（APEC中国年：开放创新合作）

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

同类文章

谷歌升级Google Cloud机密计算产品

谷歌升级Google Cloud机密计算产品

IT之家 7 月 6 日消息，谷歌宣布对旗下 Google Cloud 机密计算（Confidential Computing）产品进行升级，新增基于英伟达 Blackwell GPU 的机密虚拟机、开源 AI 提示词加密工具 Prompt Encryption SDK，同步升级 Confident

时间：2026-07-07 14:57

谷歌要放大招? Gemini 3.5 Pro传7月17日发布，前端碾压Fable 5

谷歌要放大招? Gemini 3.5 Pro传7月17日发布，前端碾压Fable 5

谷歌在大模型竞赛中憋出一张重磅底牌。据泄露信息，Gemini 3 5 Pro将于7月17日正式发布，其前端与视觉代码生成能力据称出现跨越式跃升，在多项测试中压制Anthropic的Fable 5，但在硬核推理与复杂工程任务上仍落后于对手。这款姗姗来迟的旗舰模型背后，是一次更为彻底的技术重构。据科技媒

时间：2026-07-07 14:45

年电池续航最长的荣耀手机别错过

年电池续航最长的荣耀手机别错过

在挑选2026年电池续航最长的手机时，许多人关注的不仅仅是实验室测试中的几分钟优势，更看重一天高强度使用后还能剩下多少电量。按照这个标准来看，荣耀X80 Pro Max确实很有代表性，它将大容量电池与真实日常场景紧密结合，是该需求下非常值得优先考虑的一款机型。荣耀X80 Pro Max直接搭载了一块

时间：2026-07-07 12:52

年高性价比手机推荐同预算选机更看重长期体验

年高性价比手机推荐同预算选机更看重长期体验

在2026年性价比高的手机推荐榜单中，同价位机型往往更看重长期使用的综合体验。如果仅仅追求低价，很容易忽视续航、耐用性、屏幕素质与通信质量这些日常高频使用的核心维度。荣耀X80 Pro Max的主要竞争力，在于将11000mAh超大电池、军工级防护、万级亮度屏幕以及AI智能体验，全部集成到2000元

时间：2026-07-07 12:52

小米17系列销量超550万台 Ultra版约23.07万部

小米17系列销量超550万台 Ultra版约23.07万部

探讨小米17系列最新销量表现。据数码博主曝光的行业追踪数据，截至2026年第26周（即6月22日至6月28日），小米17系列全系累计销量已成功突破550万台大关。具体数据方面，系列总销量约为554 01万台。其中，定位顶配的小米17 Ultra贡献了约23 07万部。值得关注的是，面向中端市场的1

时间：2026-07-07 12:52

热门专题

刀塔传奇破解版无限钻石下载大全

刀塔传奇破解版无限钻石下载大全

洛克王国正式正版手游下载安装大全

洛克王国正式正版手游下载安装大全

思美人手游下载专区

思美人手游下载专区

好玩的阿拉德之怒游戏下载合集

好玩的阿拉德之怒游戏下载合集

不思议迷宫手游下载合集

不思议迷宫手游下载合集

百宝袋汉化组游戏最新合集

百宝袋汉化组游戏最新合集

jsk游戏合集30款游戏大全

jsk游戏合集30款游戏大全

宾果消消消原版下载大全

宾果消消消原版下载大全

日榜
周榜
月榜

发改委王若蒙：2025年AI智能终端出货量将超1亿台

年7月7日新浪互联网热点速递

复杂任务 Prompt 工程实践：Grok4.3 的输入组织与约束设计，普通用户怎么少折腾？

Claude 4.8搭配图像大模型从创意文案到视觉落地海报全流程教程

余所高校共话AI原生组织变革冯雷分享本体驱动零代码智能体

真·QQ 飞车！「电动版 F1」上海开赛，Gemini 在线解说

PowerMem自进化Agent记忆层简易操作手册

神思电子AI自主内核赋能数字济南建设

第十届中国语言智能大会在重庆开幕

Microsoft Copilot写练手任务拆分提示词怎么输出检查表

年7月7日新浪互联网热点速递

复杂任务 Prompt 工程实践：Grok4.3 的输入组织与约束设计，普通用户怎么少折腾？

Claude 4.8搭配图像大模型从创意文案到视觉落地海报全流程教程

余所高校共话AI原生组织变革冯雷分享本体驱动零代码智能体

真·QQ 飞车！「电动版 F1」上海开赛，Gemini 在线解说

PowerMem自进化Agent记忆层简易操作手册

神思电子AI自主内核赋能数字济南建设

第十届中国语言智能大会在重庆开幕

Microsoft Copilot写练手任务拆分提示词怎么输出检查表

国家发改委公布人工智能“十五五”五大攻关任务

年7月7日新浪互联网热点速递

复杂任务 Prompt 工程实践：Grok4.3 的输入组织与约束设计，普通用户怎么少折腾？

Claude 4.8搭配图像大模型从创意文案到视觉落地海报全流程教程

余所高校共话AI原生组织变革冯雷分享本体驱动零代码智能体

真·QQ 飞车！「电动版 F1」上海开赛，Gemini 在线解说

PowerMem自进化Agent记忆层简易操作手册

神思电子AI自主内核赋能数字济南建设

第十届中国语言智能大会在重庆开幕

Microsoft Copilot写练手任务拆分提示词怎么输出检查表

国家发改委公布人工智能“十五五”五大攻关任务

相关攻略

相关攻略

谷歌升级Google Cloud机密计算产品

2026-07-07 14:57

谷歌升级Google Cloud机密计算产品

谷歌要放大招? Gemini 3.5 Pro传7月17日发布，前端碾压Fable 5

2026-07-07 14:45

谷歌要放大招? Gemini 3.5 Pro传7月17日发布，前端碾压Fable 5

年电池续航最长的荣耀手机别错过

2026-07-07 12:52

年电池续航最长的荣耀手机别错过

年高性价比手机推荐同预算选机更看重长期体验

2026-07-07 12:52

年高性价比手机推荐同预算选机更看重长期体验

小米17系列销量超550万台 Ultra版约23.07万部

2026-07-07 12:52

小米17系列销量超550万台 Ultra版约23.07万部

年12月新能源SUV销量榜 Model Y夺冠

2026-07-07 12:52

年12月新能源SUV销量榜 Model Y夺冠

科学家跨越死亡之谷架起生命桥梁

2026-07-07 12:52

科学家跨越死亡之谷架起生命桥梁

一加超低价N系列新机7月发布售价低于2万卢比

2026-07-07 12:52

一加超低价N系列新机7月发布售价低于2万卢比

热门教程

游戏攻略
安卓教程
苹果教程
电脑教程

星光对决速推指南：罗隐单核平打与对轴思路

星光对决速推指南：罗隐单核平打与对轴思路发布于 2026-07-07

洛克王国菊花梨家族全面解析攻略

洛克王国菊花梨家族全面解析攻略发布于 2026-07-07

刺客信条黑旗重制版与原版区别对比

刺客信条黑旗重制版与原版区别对比发布于 2026-07-07

刺客信条黑旗重制版是否采用D加密

刺客信条黑旗重制版是否采用D加密发布于 2026-07-07

陨星·帕洛斯实战攻略：机制拆解与高分配队

陨星·帕洛斯实战攻略：机制拆解与高分配队发布于 2026-07-07

星痕共鸣职业强度排行一览

星痕共鸣职业强度排行一览发布于 2026-07-07

龙魂旅人新区开荒阵容搭配攻略详解

龙魂旅人新区开荒阵容搭配攻略详解发布于 2026-07-07

猫咪邮政Steam试玩治愈系联机邮局模拟包裹承载记忆与月光魔法

猫咪邮政Steam试玩治愈系联机邮局模拟包裹承载记忆与月光魔法发布于 2026-07-07

Mac如何关闭聚焦搜索的翻译功能

Mac如何关闭聚焦搜索的翻译功能发布于 2026-07-07

Win10系统内置屏幕录制工具的完整开启方法与步骤详解

Win10系统内置屏幕录制工具的完整开启方法与步骤详解发布于 2026-07-07

Mac电脑如何关闭Dock栏应用缩放动画

Mac电脑如何关闭Dock栏应用缩放动画发布于 2026-07-07

Win11音量调节按钮灰色无法响应的解决方法

Win11音量调节按钮灰色无法响应的解决方法发布于 2026-07-07

微软通报假冒 Perplexity 第三方 Chrome 扩展，可劫持和监控用户搜索流量

微软通报假冒 Perplexity 第三方 Chrome 扩展，可劫持和监控用户搜索流量发布于 2026-07-07

雷蛇 Axon 壁纸引擎将登陆移动端，7 月 15 日上线 Google Play

雷蛇 Axon 壁纸引擎将登陆移动端，7 月 15 日上线 Google Play 发布于 2026-07-07

内存条标签频率参数代表什么含义

内存条标签频率参数代表什么含义发布于 2026-07-07

荣耀v30语音助手权限开启教程

荣耀v30语音助手权限开启教程发布于 2026-07-07

热门话题

魔术游戏下载-魔术游戏-2022热门的魔术小游戏大全

魔术游戏下载-魔术游戏-2022热门的魔术小游戏大全

刀塔传奇破解版在哪下-刀塔传奇破解版无限钻石下载大全-刀塔传奇破解版内购破解版合集

刀塔传奇破解版在哪下-刀塔传奇破解版无限钻石下载大全-刀塔传奇破解版内购破解版合集

饥荒下载免费中文版-饥荒下载破解版-饥荒正版全部版本下载合集

饥荒下载免费中文版-饥荒下载破解版-饥荒正版全部版本下载合集

拉布布游戏下载-拉布布游戏合集-拉布布系列游戏大全合集

拉布布游戏下载-拉布布游戏合集-拉布布系列游戏大全合集

洛克王国手游正版下载-洛克王国正版手游下载安装大全-类似洛克王国的手机游戏推荐

洛克王国手游正版下载-洛克王国正版手游下载安装大全-类似洛克王国的手机游戏推荐

神魔幻想单机游戏下载-神魔幻想单机游戏推荐-神魔幻想系列游戏下载合集

神魔幻想单机游戏下载-神魔幻想单机游戏推荐-神魔幻想系列游戏下载合集

最受女生欢迎的游戏_女生玩的手游_思美人手游下载专区

最受女生欢迎的游戏_女生玩的手游_思美人手游下载专区

疯狂越野系列游戏下载_疯狂越野全版本合集中文版下载

疯狂越野系列游戏下载_疯狂越野全版本合集中文版下载

神庙逃亡2破解无限金币无限钻石下载-神庙逃亡2国际版破解大全-神庙逃亡2版本合集

神庙逃亡2破解无限金币无限钻石下载-神庙逃亡2国际版破解大全-神庙逃亡2版本合集