GPT-5.5凌晨强势回归 Anthropic迅速应对市场变化

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

业界动态

GPT-5.5凌晨强势回归 Anthropic迅速应对市场变化

热心网友时间：2026-05-12

转载

今天凌晨，AI领域再次迎来一个重磅时刻：OpenAI正式发布了其智能体编程模型GPT‑5 5。这个被官方称为“迄今为止最智能、最直观易用”的模型，目标直指一个核心场景：在计算机上完成实际工作。它擅长编写调试代码、在线研究、数据分析、创建文档与电子表格，并在多个工具间无缝协同，俨然一位数字世界的全能

今天凌晨，AI领域再次迎来一个重磅时刻：OpenAI正式发布了其智能体编程模型GPT‑5.5。

这个被官方称为“迄今为止最智能、最直观易用”的模型，目标直指一个核心场景：在计算机上完成实际工作。它擅长编写调试代码、在线研究、数据分析、创建文档与电子表格，并在多个工具间无缝协同，俨然一位数字世界的全能助手。

OpenAI联合创始人Sam Altman的评价颇为耐人寻味，他说，这个模型“知道该做什么”。

性能提升在智能体编程、计算机使用、知识型工作及早期科学研究等领域尤为突出。这些领域恰恰需要模型具备跨上下文的深度推理和持续自主行动的能力。基准测试显示，在编程能力上，GPT‑5.5已全面超越Gemini 3.1 Pro；在专业任务、计算机使用与视觉、工具使用及抽象推理方面，其大部分成绩也高于Claude Opus 4.7和Gemini 3.1 Pro。当然，在部分学术和工具使用能力上，它与顶尖竞品尚未拉开决定性差距。

更值得注意的是效率。GPT‑5.5在实际服务中保持了与GPT‑5.4相当的响应速度，但完成相同任务时使用的token数显著减少，这意味着更高的效率和更强的能力。

模型一经发布，早期测试者的反馈迅速涌来，生动展示了其潜力。

开源项目Claude Engineer的创建者Pietro Schirano分享了他的体验：GPT-5.5用了大约20分钟，就自动对比了他项目中两个版本的代码差异，基于正式版本创建新分支，并完美合并了其他分支的所有改动。

他还用GPT-5.5一次性生成了一个可流畅操作的3D射击游戏，每个图形都由Three.js从零生成。更硬核的是，他让GPT-5.5通过USB连接为他的Flipper Zero设备创建并推送了应用程序。

Pietro Schirano感慨道：“我第一次感觉自己不再受限于模型的功能，而只受限于我的想象力。”

AI工程师Peter Gostev的深度测试则揭示了其持久的自主性。他设定了多步骤提示词，GPT-5.5能逐项稳定执行，亲测至少可自主运行7小时。他要求模型创建一个带有地标和季节变化的伦敦玩具铁路，GPT-5.5一次性出色完成。对比GPT-5.4，新模型的作品构思更宏大、逻辑更连贯，错误也更少。

学术界的应用同样惊人。波兰波兹南密茨凯维奇大学的Bartosz Naskręcki教授使用Codex中的GPT‑5.5，仅凭一条提示词，在11分钟内就构建了一个能可视化二次曲面交线并将其转换为Weierstrass模型的代数几何应用。

知名AI测评博主Matthew Berman则注意到了模型“个性”的转变，认为其回答更简洁、更像真人，这或许是OpenAI在个人智能体市场布局的一步棋。

能力提升的同时，价格也随之上涨。GPT-5.5定价为每100万输入token 5美元，每100万输出token 30美元，上下文窗口100万token。整体价格比GPT-5.4贵了约一倍。GPT-5.5 Pro版本则定价为每100万输入token 30美元，输出180美元。与Anthropic的Claude Opus 4.7相比，价格基本处于同一区间，输出定价略高5美元/百万token。

目前，GPT‑5.5正逐步向ChatGPT和Codex的Plus、Pro、Business和Enterprise用户推出，Pro版本则面向ChatGPT的更高阶用户。API开发者也将很快能在Responses API和Chat Completions API中调用gpt-5.5。

有趣的是，GPT-5.5发布当天，正值其竞争对手Anthropic的Claude Code因性能波动而遭到用户投诉。Anthropic迅速发布长文宣布已修复问题并重置用户使用限制，市场竞争的硝烟味瞬间浓烈起来。

登顶编程Agent榜首，成本仅为竞品一半

OpenAI毫不讳言，GPT‑5.5是其迄今为止最强大的Agentic Coding模型。第三方评估机构Artificial Analysis的智能指数显示，GPT-5.5在Terminal-Bench Hard、GDPval-AA以及APEX-Agents-AA等多个关键评估中均处于领先地位，综合表现排名第一。

更具吸引力的是其成本效益。根据该指数，GPT‑5.5在取得最高成绩的同时，其成本仅为同类前沿编码模型的一半。

具体到测试成绩：在复杂执行测试Terminal-Bench 2.0上，GPT‑5.5得分82.7%；在真实世界问题解决测试SWE-Bench Pro上，取得58.6%的成绩，单次端到端解决的任务数量超过以往所有模型；在内部长周期任务测试Expert-SWE上，它也优于前代。关键在于，在所有测试中，它都比GPT‑5.4使用了更少的token。

这种编程优势在Codex环境中被放大。从实现、重构到调试、测试和验证，GPT‑5.5能承担一系列工程工作。早期测试表明，它尤其擅长在大型系统中保持上下文、对模糊故障进行推理、通过工具验证假设，以及对整个代码库进行变更同步。

例如，它能使用NASA/JPL Horizons的矢量数据渲染猎户座飞船的运行轨迹，并实现显示缩放；也能制作出动态显示地震频次、地点的追踪网站；配合Codex，甚至能生成可交互的3D游戏。

客服测试成绩达98%，能自主浏览界面操作工具

GPT‑5.5的核心进步在于对用户意图的更自然理解，这使得它能够闭环处理知识型工作：查找信息、理解重点、使用工具、检查结果、产出成果。

在ChatGPT的“思维模式”下，它在编程、研究、信息综合与分析等专业任务中表现出色。基准测试成绩亮眼：规范知识型工作测试GDPva得分84.9%；真实操作计算机测试OSWorld-Verified达到78.7%；客服测试Tau2-bench Telecom在未经调优的情况下竟高达98.0%。