GPT-5编程实测：63.1%未交卷却仍超Claude 2倍

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

科技数码

GPT-5编程实测：63.1%未交卷却仍超Claude 2倍

热心网友时间：2025-09-22

转载

SWE-BENCH PRO软件工程基准测试引发新思考

最新发布的SWE-BENCH PRO测试结果显示，主流AI模型的表现在表面上不尽如人意：

GPT-5、Claude Opus 4.1和Gemini 2.5分别以23.3%、22.7%和13.5%的解题率位列前三。

AI模型在SWE-BENCH PRO的表现

但更深层的数据分析揭示了有趣的现象。前OpenAI研究员Neil Chowdhury指出，仅就已回答题目而言，GPT-5的正确率高达63%，大幅领先Claude Opus 4.1的31%。

GPT-5已回答题目表现

这一反差表明GPT-5在其擅长的领域依然保持强劲表现，与SWE-Bench-Verified基准中74.9%的成绩相差不大。

SWE-BENCH PRO测试特点

相较于SWE-Bench-Verified相对宽松的测试环境（平均70%的正确率），SWE-BENCH PRO的评估体系更为严格：

采用全新测试题目，避免训练数据污染
剔除简单的一两行代码修改任务
聚焦需要跨文件、数百行代码修改的复杂场景

SWE-BENCH PRO测试设计

多样化的代码库构成

测试集包含1865个来自不同领域的代码库：

公共集：731个问题，来自11个开源代码库
商业集：276个问题，来自初创公司代码
保留集：858个问题，用于验证模型过拟合

严谨的评估流程

为保证测试有效性，研究人员采用了以下方法：

提供详尽的问题描述和上下文
明确列出各项需求及对应函数
在专业容器环境中执行测试
通过fail2pass和pass2pass双重验证

测试结果深度分析

整体表现来看，主流AI模型的解决率显著低于以往测试。

AI模型总体表现对比

关键影响因素

编程语言难度：Go和Python表现较好，JavaScript和TypeScript波动较大
代码库特性：不同代码库的解决率差异可达40%以上
模型规模：前沿大模型表现更稳定，小型模型容易得零分

各模型失败原因分析

模型差异化表现

GPT-5：已回答题目正确率高，但63.1%的未作答率拉低总分
Claude Opus 4.1：语义理解能力需提升，35.9%的错误解答率
Gemini 2.5：各项能力均衡，但无明显突出优势

AI模型发展前景

漫步者HECATE CP2耳夹式蓝牙耳机11mm动圈26小时续航售价242元

漫步者旗下HECATE系列的CP2耳夹式蓝牙耳机，最近已经在京东悄悄上架了。这款产品主打轻便佩戴和RGB灯效，核心配置是11mm动圈单元，并且支持蓝牙6 0协议——这在目前同价位产品里算是比较超前的。价格方面，官方定价242元，如果叠加部分地区的国补，到手价能低至217 8元，性价比确实很能打。配

时间：2026-07-08 12:38

宏碁暗影骑士龙8 Pro游戏本BW2026正式发布

宏碁暗影骑士龙八专业版游戏本即将在二零二六年BW展会正式亮相，主打更强性能、更狠散热与更懂玩家的设计，并保留神秘联名悬念，更多细节将在展会现场揭晓。散热系统全面革新，性能大幅提升，专为硬核玩家打造。

时间：2026-07-08 12:38

极星4跨界SUV海外9月2日发布最高536马力

极星在海外市场释放重要信号：全新跨界SUV Polestar 4 将于 9 月 2 日正式亮相。这款新车直接对标宝马 iX3、奔驰 GLC Electric 等同级竞品。不过，官方目前仅公布了一张预告图，悬念感十足。根据现有信息，这款跨界SUV将提供后驱与四驱两种动力布局，最高可输出 536 马力

时间：2026-07-08 12:37

vivo Y500 4G海外发布 8100mAh大电池+紫光展锐T7300芯片

vivoY504G在南亚发布，配6 83英寸120HzAMOLED屏、展锐T7300芯片、8GB内存及128 256GB存储。后置5000万双摄，前置3200万，内置8100mAh电池支持44W快充，预装基于Android16的OriginOS6。

时间：2026-07-08 12:37

热门专题

刀塔传奇破解版无限钻石下载大全

洛克王国正式正版手游下载安装大全

思美人手游下载专区

好玩的阿拉德之怒游戏下载合集

不思议迷宫手游下载合集

百宝袋汉化组游戏最新合集

jsk游戏合集30款游戏大全

宾果消消消原版下载大全

日榜
周榜
月榜

光与影33号远征队总监称完美游戏无聊因没个性

外媒称PC反超主机游戏主机市场走向低迷

SE承认过早公布游戏正重新审视发布策略

疯狂保卫战第65关通关攻略与玩法解析

主网年产仅20枚先锋三年后财富自由

怪物火车2手游泰坦Boss高效通关全流程

年高人气武侠单机与趣味手游推荐合集

年最耐玩的五款魂斗罗类游戏推荐

原神夏沃蕾值得培养吗角色强度与培养建议

年高口碑手机修图App实用软件榜单推荐

光与影33号远征队总监称完美游戏无聊因没个性

外媒称PC反超主机游戏主机市场走向低迷

SE承认过早公布游戏正重新审视发布策略

疯狂保卫战第65关通关攻略与玩法解析

主网年产仅20枚先锋三年后财富自由

怪物火车2手游泰坦Boss高效通关全流程

年高人气武侠单机与趣味手游推荐合集

年最耐玩的五款魂斗罗类游戏推荐

原神夏沃蕾值得培养吗角色强度与培养建议

年高口碑手机修图App实用软件榜单推荐

光与影33号远征队总监称完美游戏无聊因没个性

外媒称PC反超主机游戏主机市场走向低迷

SE承认过早公布游戏正重新审视发布策略

疯狂保卫战第65关通关攻略与玩法解析

主网年产仅20枚先锋三年后财富自由

怪物火车2手游泰坦Boss高效通关全流程

年高人气武侠单机与趣味手游推荐合集

年最耐玩的五款魂斗罗类游戏推荐

原神夏沃蕾值得培养吗角色强度与培养建议

年高口碑手机修图App实用软件榜单推荐

相关攻略

2026-07-08 12:39

黑客冒充国际刑警组织向全球中小企业发送钓鱼邮件

2026-07-08 12:39

雷克沙7600CL38超频内存条搭载长鑫DDR5颗粒

2026-07-08 12:39

据传三星MX将在Galaxy S27 Pro中进一步扩展双供应商芯片策略

2026-07-08 12:39

光州机场转型半导体中心，三星与SK海力士启动晶圆厂建设

2026-07-08 12:39

Redmi新机搭载7英寸2K直屏天玑9芯片暂定1月登场

2026-07-08 12:39

抖音电商报告：观赛季足球商品成交额增长113%

2026-07-08 12:38

宝马M2全新赛道套件创燃油混动紧凑车纽北纪录

2026-07-08 12:38

ai域名去年为安圭拉政府创收超7000万美元

热门教程

游戏攻略
安卓教程
苹果教程
电脑教程

神威三国礼包激活码领取攻略大全发布于 2026-07-08

无尽冒险好玩吗核心玩法与新手入门指南发布于 2026-07-08

保卫加加村好玩吗真实玩家体验深度测评发布于 2026-07-08

方舟生存进化手游多人联机详细教程发布于 2026-07-08

复仇女神号封锁好玩吗玩法简介发布于 2026-07-08

《欢迎来到九龙》2026年7月10日登陆PS5与Xbox 发布于 2026-07-08

王者荣耀九周年返场皮肤有哪些发布于 2026-07-08

剑星虚拟摄影赛开启展现莉莉别样魅力发布于 2026-07-08

麒麟操作系统如何查看共享内存段信息发布于 2026-07-08

麒麟操作系统运行Python脚本的完整指南发布于 2026-07-08

麒麟OS怎么设置鼠标右键点击即选择发布于 2026-07-08

银河麒麟系统用户头像资料无法修改的解决办法发布于 2026-07-08

手机电子秤功能真的能称重吗发布于 2026-07-08

万左右新能源SUV怎么选五款高适配车型推荐发布于 2026-07-08

万纯电SUV怎么选奔驰纯电GLC值得考虑发布于 2026-07-08

家用豪华SUV推荐：5款舒适型车型盘点发布于 2026-07-08

热门话题

魔术游戏下载-魔术游戏-2022热门的魔术小游戏大全

刀塔传奇破解版在哪下-刀塔传奇破解版无限钻石下载大全-刀塔传奇破解版内购破解版合集

饥荒下载免费中文版-饥荒下载破解版-饥荒正版全部版本下载合集

拉布布游戏下载-拉布布游戏合集-拉布布系列游戏大全合集

洛克王国手游正版下载-洛克王国正版手游下载安装大全-类似洛克王国的手机游戏推荐

神魔幻想单机游戏下载-神魔幻想单机游戏推荐-神魔幻想系列游戏下载合集

最受女生欢迎的游戏_女生玩的手游_思美人手游下载专区

疯狂越野系列游戏下载_疯狂越野全版本合集中文版下载

神庙逃亡2破解无限金币无限钻石下载-神庙逃亡2国际版破解大全-神庙逃亡2版本合集

GPT-5编程实测：63.1%未交卷却仍超Claude 2倍

SWE-BENCH PRO测试特点

多样化的代码库构成

严谨的评估流程

测试结果深度分析

关键影响因素

模型差异化表现

漫步者HECATE CP2耳夹式蓝牙耳机11mm动圈26小时续航售价242元

宏碁暗影骑士龙8 Pro游戏本BW2026正式发布

最新5月充电宝排行榜小米夺冠倍思第二

极星4跨界SUV海外9月2日发布 最高536马力

vivo Y500 4G海外发布 8100mAh大电池+紫光展锐T7300芯片

极星4跨界SUV海外9月2日发布最高536马力