数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

科技数码

全球AI编程能力实测：GPT-5得分23.3%，地狱级考试金牌神话终结

全球AI编程能力实测：GPT-5得分23.3%，地狱级考试金牌神话终结

热心网友时间：2025-09-22

转载

编程大考，全球顶尖LLM夺金，真无敌了？最难编码基准SWE-Bench Pro出世，汇集了平均超100行代码的难题。没想到，最能打的LLM纷纷溃败，GPT-5仅拿下23.3%高分。

一图看透全球大模型！新智元十周年钜献，2025 ASI前沿趋势报告37页首发

继IMO 2025登顶后，谷歌、OpenAI的模型，再一次拿下了ICPC金牌。

ICPC，被公认为全球最具挑战的大学生编程竞赛之一。

OpenAI和谷歌不仅解决了全部12题，还在人类选手中位列第一，难道AI编程真能所向披靡了吗？

最新一项基准测试，直接打脸了全世界的顶尖模型。

它就是SWE-Bench Pro，专为评估AI编程智能体而生的新一代基准测试，直面真实企业级工程任务。

相较于前代SWE-Bench，Pro版本升级带来了三大突破：

任务难度全面提升抗数据污染能力更强无限逼近真实代码库

这一版，堪称编码中的「最后人类考试」。在实际测试（公开集）中，顶尖模型几乎溃败。

GPT-5虽拿下了第一，但成绩仅有23.3%，Claude Opus 4.1以22.7%得分位居第二。

其他模型更是没有一个能打的，得分全部低于15%。

这意味着，在更贴近真实世界的编程任务中，LLM的长程编码能力仍是短板。

最新21页技术论文，详细公开了SWE-Bench Pro设计细节。

论文地址：https://static.scale.com/uploads/654197dc94d34f66c0f5184e/SWEAP_Eval_Scale%20%289%29.pdf

编码界，需要一场硬核考试

过去，SWE-Bench等基准成为了评估LLM在软件工程中的重要标准。

这些测试中，通常要求AI基于完整代码库和自然语言描述，生成代码Patch。

就拿SWE-Bench Verified来说，顶尖LLM已实现超70%成功率，听起来确实非常厉害。

但这也暴露了一个问题：

未来6至12个月内，现有基准或许会「饱和」，无法再去有效衡量AI的进步。

由此，Scale AI正式发布了SWE-Bench Pro。

它提供了一个更真实、更具挑战的「考场」，直击痛点解决现有基准的缺陷。

数据污染，与现实脱节

当前，已有的编码基准测试，存在两大缺陷。

一方面，数据污染风险高。很多基准基于开源GitHub仓库构建，但这些仓库，尤其是MIT、Apache许可的项目，很容易被LLM训练数据「爬虫」。

由此一来，AI在测试时存在「作弊」的可能，或许它早就见过类似的难题。

另一方面，现有基准的任务太过简单，达不到「工业级别」。

还以SWE-Bench Verified举例，500道题中，竟有161道只需改1-2行代码。

这在实验室里可行，但到了企业环境中，往往涉及跨多个文件、数百行代码的复杂修改。

这样的基准，根本无法反映AI在真实开发场景中的表现。

编码考试不是AI智能体的最终目的，但一个更硬核基准，才能真实评估LLM是否真正符合工业级应用的标准。

SWE-Bench Pro：超100行代码难题

在SWE-Bench Pro设计中，一共包含1865个经人工验证与增强的问题，细分了三类子集——公开集、商业集、保留集。

论文中，研究团队介绍了SWE-Bench Pro的三大贡献：

巧妙收集设计，降低数据污染风险

SWE-Bench Pro创新数据收集策略，避开了污染陷阱。

（1）仅采用强著佐权许可证（GPL）的代码库构建公开集（11个代码库）和保留集（12个代码库）；

（2）从真实初创企业获取商业代码以构建商业集（18个代码库），从而捕捉企业级问题。

• 公开集：在HuggingFace公开发布731个实例，并在本文中报告相关统计数据和模型表现。这些实例源自采用著佐权（copyleft）许可证的公开代码库。

• 商业集：来自初创企业代码库的276个商业集问题。这是唯一包含初创企业专有代码库的集合，因法律限制无法公开。

• 保留集：保留了858个与公共集结构镜像但采用不同代码库的问题集。

任务升级，更具挑战、多样，更贴近工业

为了确保任务复杂度，Scale AI排除了1-10行代码「小修小补」的任务，只保留需要多文件、实质性修改的问题。

参考解决方案平均涉及4.1个文件、107.4行代码，所有任务至少改10行，超100项任务需改超100行。

除了复杂度外，选的代码库都是活跃维护的，覆盖了消费级App、B2B服务和开发者工具平台等多个领域。

而且，每个代码库贡献了50-100个实例（上限100），避免了对单一库的依赖。

人机协同验证，确保任务可解

有了以上难题还不够，最后一步，还需要确保它们是可解的。

为此，SWE-Bench Pro又引入了一个以人为中心的增强验证流程，分为三阶段人机协同流程。

一方面，它能澄清模糊信息，补充缺失的上下文；另一方面，通过约束解决方案空间，保持灵活同时避免假阴性。

Claude企业级第一，仅拿下17.8%「最高分」

不同顶尖模型，在SWE-Bench Pro上的表现如下表1所示。

以Pass@1作为问题解决率指标，GPT-5与Claude Opus 4.1分别以23.3%和22.7%解决率领先。

早期代际模型，比如DeepSeek Qwen-3 32B、GPT-4o表现明显落后，分别仅为3.4%和3.9%。

此外，公开集和商业集存在显著的性能差距。

最佳模型在商业集的得分均低于20%，从侧面印证了，企业级代码库处理的挑战性。

总的来说，LLM在公开集的通过率≤23.3%，在商业集≤17.8%，远远低于SWE-Bench Verified的70%以上。

这背后的原因，究竟是什么？

不擅长的语言，也会影响性能

从编程语言维度来看，AI性能分化明显。

在Go和Python任务中，大多数模型解决率较高，有些甚至超过30%。

相较之下，JavaScript（JS）与TypeScript（TS）则表现波动较大，根据模型不同，解决率从0%到超过30%不等。

不仅如此，代码仓库维度多样，有些仓库，所有模型解决率都低于10%。

有一些，还能达到50%。

仓库的复杂度、文档质量，或是问题类型等，也成了LLM在编码任务中影响性能的因素。

可以看到，Claude Opus 4.1、GPT-5在多数仓库和编程语言中，都能保持稳定高性能。

失败原因，多种多样

接下来，研究人员又让GPT-5作为「法官」，去对不同模型的故障进行分析。

具体步骤是，先手动构建常见故障分类桶，然后筛选未解决实例，收集最后20轮交互轨迹，向GPT-5提供提示，让其推理并分类故障。

结果显示，顶尖模型的失败原因，覆盖了各种情况。

Claude Opus 4.1：卡在了语义理解，错误解决方案占比35.9%，语法错误24.2%，技术执行力强，但问题理解、算法准确性有待提升。

GPT-5：工具使用差异明显，但错误解决方案较少。

Claude Sonnet 4：上下文溢出（35.6%）和无限文件读取行为（17.0%）是主因，暴露了上下文管理和导航策略的局限。

Gemini 2.5：工具错误（38.8%）、语法错误（30.5%）和错误解决方案（18.0%，多维度挑战并存

Qwen-3 32B：工具错误率最高（42.0%）

总言之，SWE-Bench Pro是一个全新抗污染、工业真实的基准，能够成为未来LLM编码能力一大标尺。

一作介绍

Xiang Deng

Xiang Deng现任Scale AI研究工程师，专注于LLM的编程与智能体研发。

他曾获得了俄亥俄州立大学的博士学位，以及中国科学技术大学计算机科学学士学位。

Jeff Da

Jeff Da现任Scale AI研究科学家，专注于强化学习、智能体与训练后优化方向。

他曾在艾伦人工智能研究所和华盛顿大学，主要从事推理能力评估、多模态学习等方向的研究。

彩蛋

有趣的是，在首席AI官Alexandr Wang评论区下方，所有人更关心的是MSL内幕消息。

Alexandr剧透，即将有更多新内容分享。

参考资料：

https://x.com/vbingliu/status/1969460781495566611

ScaleAI/SWE-bench_Pro · Datasets at Hugging Face

https://x.com/alexandr_wang/status/1969805196462358919

来源:https://36kr.com/p/3477782834977161

上一篇： 3.7万亿AI基建投资引发全球关注，美国市场面临新挑战

下一篇： GPT-5编程实测：63.1%未交卷却仍超Claude 2倍

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

同类文章

X3D新版上市，华硕B550重炮手WIFI二代主板绝配

X3D新版上市，华硕B550重炮手WIFI二代主板绝配

AMD推出锐龙75800X3D十周年纪念版，引入碳纳米管导热垫技术，大幅提升散热效率。华硕B550重炮手WIFI二代主板拥有扎实供电、优秀散热与丰富扩展，支持DDR4内存超频，二者组合适合打造高性价比游戏主机，是玩家升级的理想选择。

时间：2026-07-08 11:44

十款重度除醛净化器三年滤芯成本与效率横评

十款重度除醛净化器三年滤芯成本与效率横评

对十款重度除醛净化器进行横评，聚焦三年真实持有成本。结果发现，纯催化分解技术机型耗材成本最低，如空气堡P5三年仅299元；宣称“免换芯”实为营销套路，HEPA滤网仍需定期更换，总成本未必更低。

时间：2026-07-08 11:44

小米自研泰坦合金2.0 100%再生铝技术获国内外认证

小米自研泰坦合金2.0 100%再生铝技术获国内外认证

小米自主研发的泰坦合金2 0实现100%再生铝应用，用于汽车一体压铸后地板，单位碳排放仅1 1kgCO₂e kg，较传统工艺降低93%。该材料已量产搭载于SU7和YU7车型，获IVL瑞典环境科学研究院及国际EPD认证，国内专家组鉴定达国际先进水平。

时间：2026-07-08 11:44

爱马仕Agent全面超越龙虾，给国产上了一课

爱马仕Agent全面超越龙虾，给国产上了一课

Hermes通过多智能体协作与自我验证升级，引入基于证据的验证和目标驱动循环，同时利用学习与记忆功能沉淀技能，提升Agent可靠性和判断力。国产Agent应从卷功能转向卷质量，重视可观察、可验证、可干预的产品设计。

时间：2026-07-08 11:44

董宇辉晒周杰伦昆凌合影，同游长城成追星赢家

董宇辉晒周杰伦昆凌合影，同游长城成追星赢家

董宇辉晒出与周杰伦后台合影及与昆凌同游长城的照片，引发热议。他从2024年台下观众到受邀参加《周游记3》，凭文史知识赢得周杰伦一家认可，实现从粉丝到朋友的跨越，展现了追星的最高境界。

时间：2026-07-08 11:43

热门专题

刀塔传奇破解版无限钻石下载大全

刀塔传奇破解版无限钻石下载大全

洛克王国正式正版手游下载安装大全

洛克王国正式正版手游下载安装大全

思美人手游下载专区

思美人手游下载专区

好玩的阿拉德之怒游戏下载合集

好玩的阿拉德之怒游戏下载合集

不思议迷宫手游下载合集

不思议迷宫手游下载合集

百宝袋汉化组游戏最新合集

百宝袋汉化组游戏最新合集

jsk游戏合集30款游戏大全

jsk游戏合集30款游戏大全

宾果消消消原版下载大全

宾果消消消原版下载大全

日榜
周榜
月榜

光与影33号远征队总监称完美游戏无聊因没个性

外媒称PC反超主机游戏主机市场走向低迷

SE承认过早公布游戏正重新审视发布策略

疯狂保卫战第65关通关攻略与玩法解析

主网年产仅20枚先锋三年后财富自由

怪物火车2手游泰坦Boss高效通关全流程

年高人气武侠单机与趣味手游推荐合集

年最耐玩的五款魂斗罗类游戏推荐

原神夏沃蕾值得培养吗角色强度与培养建议

年高口碑手机修图App实用软件榜单推荐

光与影33号远征队总监称完美游戏无聊因没个性

外媒称PC反超主机游戏主机市场走向低迷

SE承认过早公布游戏正重新审视发布策略

疯狂保卫战第65关通关攻略与玩法解析

主网年产仅20枚先锋三年后财富自由

怪物火车2手游泰坦Boss高效通关全流程

年高人气武侠单机与趣味手游推荐合集

年最耐玩的五款魂斗罗类游戏推荐

原神夏沃蕾值得培养吗角色强度与培养建议

年高口碑手机修图App实用软件榜单推荐

光与影33号远征队总监称完美游戏无聊因没个性

外媒称PC反超主机游戏主机市场走向低迷

SE承认过早公布游戏正重新审视发布策略

疯狂保卫战第65关通关攻略与玩法解析

主网年产仅20枚先锋三年后财富自由

怪物火车2手游泰坦Boss高效通关全流程

年高人气武侠单机与趣味手游推荐合集

年最耐玩的五款魂斗罗类游戏推荐

原神夏沃蕾值得培养吗角色强度与培养建议

年高口碑手机修图App实用软件榜单推荐

相关攻略

相关攻略

谷歌升级Google Cloud机密计算产品

2026-07-07 14:57

谷歌升级Google Cloud机密计算产品

谷歌要放大招? Gemini 3.5 Pro传7月17日发布，前端碾压Fable 5

2026-07-07 14:45

谷歌要放大招? Gemini 3.5 Pro传7月17日发布，前端碾压Fable 5

年电池续航最长的荣耀手机别错过

2026-07-07 12:52

年电池续航最长的荣耀手机别错过

年高性价比手机推荐同预算选机更看重长期体验

2026-07-07 12:52

年高性价比手机推荐同预算选机更看重长期体验

小米17系列销量超550万台 Ultra版约23.07万部

2026-07-07 12:52

小米17系列销量超550万台 Ultra版约23.07万部

年12月新能源SUV销量榜 Model Y夺冠

2026-07-07 12:52

年12月新能源SUV销量榜 Model Y夺冠

科学家跨越死亡之谷架起生命桥梁

2026-07-07 12:52

科学家跨越死亡之谷架起生命桥梁

一加超低价N系列新机7月发布售价低于2万卢比

2026-07-07 12:52

一加超低价N系列新机7月发布售价低于2万卢比

热门教程

游戏攻略
安卓教程
苹果教程
电脑教程

神威三国礼包激活码领取攻略大全

神威三国礼包激活码领取攻略大全发布于 2026-07-08

无尽冒险好玩吗核心玩法与新手入门指南

无尽冒险好玩吗核心玩法与新手入门指南发布于 2026-07-08

保卫加加村好玩吗真实玩家体验深度测评

保卫加加村好玩吗真实玩家体验深度测评发布于 2026-07-08

方舟生存进化手游多人联机详细教程

方舟生存进化手游多人联机详细教程发布于 2026-07-08

复仇女神号封锁好玩吗玩法简介

复仇女神号封锁好玩吗玩法简介发布于 2026-07-08

《欢迎来到九龙》2026年7月10日登陆PS5与Xbox

《欢迎来到九龙》2026年7月10日登陆PS5与Xbox 发布于 2026-07-08

王者荣耀九周年返场皮肤有哪些

王者荣耀九周年返场皮肤有哪些发布于 2026-07-08

剑星虚拟摄影赛开启展现莉莉别样魅力

剑星虚拟摄影赛开启展现莉莉别样魅力发布于 2026-07-08

麒麟操作系统如何查看共享内存段信息

麒麟操作系统如何查看共享内存段信息发布于 2026-07-08

麒麟操作系统运行Python脚本的完整指南

麒麟操作系统运行Python脚本的完整指南发布于 2026-07-08

麒麟OS怎么设置鼠标右键点击即选择

麒麟OS怎么设置鼠标右键点击即选择发布于 2026-07-08

银河麒麟系统用户头像资料无法修改的解决办法

银河麒麟系统用户头像资料无法修改的解决办法发布于 2026-07-08

手机电子秤功能真的能称重吗

手机电子秤功能真的能称重吗发布于 2026-07-08

万左右新能源SUV怎么选五款高适配车型推荐

万左右新能源SUV怎么选五款高适配车型推荐发布于 2026-07-08

万纯电SUV怎么选奔驰纯电GLC值得考虑

万纯电SUV怎么选奔驰纯电GLC值得考虑发布于 2026-07-08

家用豪华SUV推荐：5款舒适型车型盘点

家用豪华SUV推荐：5款舒适型车型盘点发布于 2026-07-08

热门话题

魔术游戏下载-魔术游戏-2022热门的魔术小游戏大全

魔术游戏下载-魔术游戏-2022热门的魔术小游戏大全

刀塔传奇破解版在哪下-刀塔传奇破解版无限钻石下载大全-刀塔传奇破解版内购破解版合集

刀塔传奇破解版在哪下-刀塔传奇破解版无限钻石下载大全-刀塔传奇破解版内购破解版合集

饥荒下载免费中文版-饥荒下载破解版-饥荒正版全部版本下载合集

饥荒下载免费中文版-饥荒下载破解版-饥荒正版全部版本下载合集

拉布布游戏下载-拉布布游戏合集-拉布布系列游戏大全合集

拉布布游戏下载-拉布布游戏合集-拉布布系列游戏大全合集

洛克王国手游正版下载-洛克王国正版手游下载安装大全-类似洛克王国的手机游戏推荐

洛克王国手游正版下载-洛克王国正版手游下载安装大全-类似洛克王国的手机游戏推荐

神魔幻想单机游戏下载-神魔幻想单机游戏推荐-神魔幻想系列游戏下载合集

神魔幻想单机游戏下载-神魔幻想单机游戏推荐-神魔幻想系列游戏下载合集

最受女生欢迎的游戏_女生玩的手游_思美人手游下载专区

最受女生欢迎的游戏_女生玩的手游_思美人手游下载专区

疯狂越野系列游戏下载_疯狂越野全版本合集中文版下载

疯狂越野系列游戏下载_疯狂越野全版本合集中文版下载

神庙逃亡2破解无限金币无限钻石下载-神庙逃亡2国际版破解大全-神庙逃亡2版本合集

神庙逃亡2破解无限金币无限钻石下载-神庙逃亡2国际版破解大全-神庙逃亡2版本合集