数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

GPT-5编程实测：未交卷率63.1%，综合能力超Claude两倍

GPT-5编程实测：未交卷率63.1%，综合能力超Claude两倍

热心网友时间：2025-09-23

转载

AI编程测评遭遇滑铁卢：SWE-BENCH PRO揭示行业真实水平

Scale AI最新发布的软件工程评测基准SWE-BENCH PRO引发热议，测试结果显示主流AI模型表现远不及预期。

AI模型测评结果对比

测评结果解读：数据背后的真相

表面看三大主流模型全军覆没：GPT-5、Claude Opus 4.1和Gemini 2.5的解决率分别仅为23.3%、22.7%和13.5%。但前OpenAI研究员Neil Chowdhury指出，若仅统计已回答题目，GPT-5正确率可达63%，Claude Opus 4.1则仅有31%。

模型实际表现对比

SWE-BENCH PRO评测基准解析

造成测评结果大幅下滑的根本原因是评测基准的全新升级：

采用1865个全新商业代码库，确保测试内容未被模型预先训练
排除简单修改问题，专注多文件复杂修改场景
引入真实商业代码环境，更好模拟工业实践

SWE-BENCH PRO基准设计

深度分析：模型失败原因探寻

不同模型展现各自短板：

Claude Opus 4.1主要在语义理解环节失分
GPT-5显示出工具使用效能问题
Claude Sonnet 4面临上下文管理挑战
Gemini 2.5表现较为均衡但不够突出

不同模型的失败模式分析

来源:https://www.ithome.com/0/884/947.htm

上一篇：宇树G1人形机器人抗摔测试：被围攻后秒速自主起身

下一篇： Meta推出MobileLLM-R1系列AI模型：10亿参数内专精数学与编程

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

同类文章

夸克AI助手实用功能解析日常生活场景全攻略

夸克AI助手实用功能解析日常生活场景全攻略

夸克AI助手深度融入生活，提供精准决策支持：它能智能规划行程、理解文本逻辑进行翻译、根据食材推荐菜式、辅导学习时拆解思路，并进行健康初筛提示就医。这些功能使其成为高效的生活助手。

时间：2026-05-25 07:28

AI霓虹灯光视频制作教程：从零到精通的完整指南

AI霓虹灯光视频制作教程：从零到精通的完整指南

在即梦AI中制作霓虹灯光效果时，若边缘不够锐利或颜色平淡，可尝试以下方法：使用内置霓虹滤镜调整参数；通过详细提示词生成霓虹风格视频；后期叠加动态辉光图层并设置混合模式；或结合RGB分离与边缘发光插件模拟逼真光效。导出时启用HDR烘焙以保持亮度层次。

时间：2026-05-25 07:28

夸克AI短视频内容对标与热点追踪操作指南

夸克AI短视频内容对标与热点追踪操作指南

借助夸克AI工具，可从五个维度系统化进行短视频内容对标与热点追踪：通过AI对话对比爆款结构，获取标题模板；订阅关键词并追踪用户互动行为；利用AI总结解构竞品逻辑，识别关键段落与完播拐点；聚合扫描多平台热榜，发现新兴热点并生成差异化脚本；通过视觉搜索识别竞品画面共性，实现高。

时间：2026-05-25 07:28

海螺AI多轮对话功能实测与用户体验深度解析

海螺AI多轮对话功能实测与用户体验深度解析

海螺AI多轮对话体验不佳常因设置不当。需调整会话管理，增加上下文保留轮次并勾选相关选项以增强记忆。语音交互应启用端侧预处理与实时传输协议优化音频质量。确保账号完成实名认证且处于境内网络，避免功能受限。对于复杂任务，可手动启用高阶推理模式以提升逻辑处理能力。

时间：2026-05-25 07:28

Excel公式自动生成教程告别繁琐表格制作

Excel公式自动生成教程告别繁琐表格制作

借助智能工具自动生成Excel公式可提升效率，方法包括：用自然语言描述生成公式、启用动态上下文批量填充、调用AI技能直接生成完整报表、将公式与条件格式绑定实现视觉反馈，以及通过OCR识别数据并注入公式模板。这些方法能系统化解决手动编写和校验公式的繁琐问题。

时间：2026-05-25 07:28

热门专题

刀塔传奇破解版无限钻石下载大全

刀塔传奇破解版无限钻石下载大全

洛克王国正式正版手游下载安装大全

洛克王国正式正版手游下载安装大全

思美人手游下载专区

思美人手游下载专区

好玩的阿拉德之怒游戏下载合集

好玩的阿拉德之怒游戏下载合集

不思议迷宫手游下载合集

不思议迷宫手游下载合集

百宝袋汉化组游戏最新合集

百宝袋汉化组游戏最新合集

jsk游戏合集30款游戏大全

jsk游戏合集30款游戏大全

宾果消消消原版下载大全

宾果消消消原版下载大全

日榜
周榜
月榜

怪物猎人荒野太刀无限居合连招教学与实战技巧

洛克王国韦恩具体位置与寻找攻略

洛克王国植物园遗址具体位置与前往路线

洛克王国学院内部路线与进入方法详解

洛克王国圣域禁地位置与进入方法详解

洛克王国钓鱼地点全攻略与技巧分享

洛克王国七曜圣地具体位置与前往方法

洛克王国九龙长廊具体位置与前往方法

洛克王国幽影山谷地图位置与进入方法详解

洛克王国露西亚在哪里可以找到具体位置坐标

漫蛙漫画防走失网页链接

聪明开局吧第211关人间清醒找出32个常用字通关图文攻略

聪明开局吧第212关屋找出14个常用字图文通关攻略

超级混音带争议过大或无缘TGA年度游戏评选

聪明开局吧第213关通关攻略找出23个常用字图文详解

极限竞速地平线6抢先体验玩家破百万

聪明开局吧第214关马客页找出15个常用字图文通关攻略

魔兽世界魔铁矿石高效采集路线与刷新点详解

DNF手游史诗防具获取攻略毕业装备高效入手方法

宝可梦传说阿尔宙斯甜甜圈风味效果与获取方法

漫蛙漫画防走失网页链接

《问剑长生》新大区预创角开启，是什么福利让玩家直呼夯爆了？

紧急！Axios 被投毒，3亿项目受到影响！教你怎么自查！

兆易创新2025年年营收92亿元，净利16亿元

TensorFlow - AI开发平台,AI开发框架

解决sql server2008注册表写入失败，vs2013核心功能安装失败

《九牧之野》S3乱世诡道主题服开启：4月18日上线，预备盟奖励与开服福利一文看懂

donk：对待季军赛的心态和决赛不一样，总之已经拿不到冠军了

iPhone 15耳机连接后音量小原因排查与解决

蛮荒领主手游测试资格获取方式蛮荒领主内测资格申请渠道与条件详解

相关攻略

相关攻略

《炎龙骑士团2》详细全攻略

2015-03-10 11:25

《炎龙骑士团2》详细全攻略

《东吴霸王传2013》详细全关攻略

2015-03-10 11:05

《东吴霸王传2013》详细全关攻略

《臭作》之100%全完整攻略

2021-08-04 13:30

《臭作》之100%全完整攻略

《兰斯8》剧情攻略详细篇

2015-03-10 11:22

《兰斯8》剧情攻略详细篇

《英雄坛说》详细全攻略

2015-03-10 12:39

《英雄坛说》详细全攻略

《造梦西游2：十殿阎罗篇》BOSS档案及掉落装备全介绍及攻略

2022-05-16 18:57

《造梦西游2：十殿阎罗篇》BOSS档案及掉落装备全介绍及攻略

偷窃少女的教育方法全攻略

2025-05-23 13:43

偷窃少女的教育方法全攻略

无法抵挡小恶魔的诱惑攻略

2025-05-23 14:01

无法抵挡小恶魔的诱惑攻略

热门教程

游戏攻略
安卓教程
苹果教程
电脑教程

Karmine Corp战队问鼎火箭联盟巴黎Major冠军

Karmine Corp战队问鼎火箭联盟巴黎Major冠军发布于 2026-05-25

星际公民众筹破十亿美元资金规模仍在持续扩大

星际公民众筹破十亿美元资金规模仍在持续扩大发布于 2026-05-25

星际公民众筹破10亿美元五千美元飞船开售仍无法驾驶

星际公民众筹破10亿美元五千美元飞船开售仍无法驾驶发布于 2026-05-25

红色沙漠板金鞋冰冷之心获取方法详解

红色沙漠板金鞋冰冷之心获取方法详解发布于 2026-05-25

火箭联盟擦边撞击玩法解析与虚幻引擎6技术前瞻

火箭联盟擦边撞击玩法解析与虚幻引擎6技术前瞻发布于 2026-05-25

骷髅王黄金面具设定揭秘导演特拉维斯奈特为何取消

骷髅王黄金面具设定揭秘导演特拉维斯奈特为何取消发布于 2026-05-25

Switch 2畅玩2025年最佳独立游戏体验同样出色

Switch 2畅玩2025年最佳独立游戏体验同样出色发布于 2026-05-25

红色沙漠纳兹克单手剑怎么获得详细入手方法攻略

红色沙漠纳兹克单手剑怎么获得详细入手方法攻略发布于 2026-05-25

宝可梦朱紫双打对战石鸟队伍配置与实战攻略

宝可梦朱紫双打对战石鸟队伍配置与实战攻略发布于 2026-05-25

《竞拍之王》新版上线限时生肖收集活动开启

《竞拍之王》新版上线限时生肖收集活动开启发布于 2026-05-25

007无暇赴死全球上映时间公布预载尚未开启

007无暇赴死全球上映时间公布预载尚未开启发布于 2026-05-25

Xbox Game Pass家庭计划取消原因曝光知情人士指EA为主要因素

Xbox Game Pass家庭计划取消原因曝光知情人士指EA为主要因素发布于 2026-05-25

三国平民阵容搭配攻略零氪金最强组合推荐

三国平民阵容搭配攻略零氪金最强组合推荐发布于 2026-05-25

巫师3制作团队回忆维瑟米尔牺牲场景的沉重时刻

巫师3制作团队回忆维瑟米尔牺牲场景的沉重时刻发布于 2026-05-25

SE新游制作人回应撞脸塞尔达争议动作RPG设计理念首曝

SE新游制作人回应撞脸塞尔达争议动作RPG设计理念首曝发布于 2026-05-25

007新邦女郎惊艳亮相情感名场面引爆观众热议

007新邦女郎惊艳亮相情感名场面引爆观众热议发布于 2026-05-25

Win11 C盘神秘文件夹解析：微软官方说明与安全处理指南

Win11 C盘神秘文件夹解析：微软官方说明与安全处理指南发布于 2026-05-24

Win11五月更新KB5089549卡在35%的官方修复方法

Win11五月更新KB5089549卡在35%的官方修复方法发布于 2026-05-24

Windows批量修改文件后缀名教程使用CMD命令一键快速完成

Windows批量修改文件后缀名教程使用CMD命令一键快速完成发布于 2026-05-20

Win11 查看 CPU 硬件级安全隔离支持方法提升系统防御力

Win11 查看 CPU 硬件级安全隔离支持方法提升系统防御力发布于 2026-05-20

如何查询Mac型号年份与配置信息

如何查询Mac型号年份与配置信息发布于 2026-05-20

Linux系统Nginx服务器HTTPS证书安装配置教程

Linux系统Nginx服务器HTTPS证书安装配置教程发布于 2026-05-20

Mac放大镜功能开启指南轻松看清屏幕细节

Mac放大镜功能开启指南轻松看清屏幕细节发布于 2026-05-20

Mac终端清理DNS缓存详细步骤与操作指南

Mac终端清理DNS缓存详细步骤与操作指南发布于 2026-05-20

国产内存新架构突破30TB带宽实现自主供应链

国产内存新架构突破30TB带宽实现自主供应链发布于 2026-05-11

Edge浏览器网页捕获功能使用教程截取全屏与区域截图详解

Edge浏览器网页捕获功能使用教程截取全屏与区域截图详解发布于 2026-05-11

千度手机版官网免费入口手机端专用访问链接

千度手机版官网免费入口手机端专用访问链接发布于 2026-05-11

ES文件浏览器复制文件内容到剪贴板详细步骤教程

ES文件浏览器复制文件内容到剪贴板详细步骤教程发布于 2026-05-11

如何设置鼠标连点器的固定点击间隔秒数

如何设置鼠标连点器的固定点击间隔秒数发布于 2026-05-11

苹果iPhone 15截屏保存到相册的详细步骤教程

苹果iPhone 15截屏保存到相册的详细步骤教程发布于 2026-05-11

立升净水器滤芯更换方法与使用指南

立升净水器滤芯更换方法与使用指南发布于 2026-05-11

ES文件浏览器如何设置默认打开应用详细图文教程

ES文件浏览器如何设置默认打开应用详细图文教程发布于 2026-05-11

热门话题

魔术游戏下载-魔术游戏-2022热门的魔术小游戏大全

魔术游戏下载-魔术游戏-2022热门的魔术小游戏大全

刀塔传奇破解版在哪下-刀塔传奇破解版无限钻石下载大全-刀塔传奇破解版内购破解版合集

刀塔传奇破解版在哪下-刀塔传奇破解版无限钻石下载大全-刀塔传奇破解版内购破解版合集

饥荒下载免费中文版-饥荒下载破解版-饥荒正版全部版本下载合集

饥荒下载免费中文版-饥荒下载破解版-饥荒正版全部版本下载合集

拉布布游戏下载-拉布布游戏合集-拉布布系列游戏大全合集

拉布布游戏下载-拉布布游戏合集-拉布布系列游戏大全合集

洛克王国手游正版下载-洛克王国正版手游下载安装大全-类似洛克王国的手机游戏推荐

洛克王国手游正版下载-洛克王国正版手游下载安装大全-类似洛克王国的手机游戏推荐

神魔幻想单机游戏下载-神魔幻想单机游戏推荐-神魔幻想系列游戏下载合集

神魔幻想单机游戏下载-神魔幻想单机游戏推荐-神魔幻想系列游戏下载合集

最受女生欢迎的游戏_女生玩的手游_思美人手游下载专区

最受女生欢迎的游戏_女生玩的手游_思美人手游下载专区

疯狂越野系列游戏下载_疯狂越野全版本合集中文版下载

疯狂越野系列游戏下载_疯狂越野全版本合集中文版下载

神庙逃亡2破解无限金币无限钻石下载-神庙逃亡2国际版破解大全-神庙逃亡2版本合集

神庙逃亡2破解无限金币无限钻石下载-神庙逃亡2国际版破解大全-神庙逃亡2版本合集