GPT-5编程测试引争议:自删23题并采用自定基准

最近关于GPT-5编程能力的讨论引发了不少争议。有开发者发现,OpenAI在测试GPT-5编程能力时使用的SWE-bench Verified基准测试存在猫腻——他们自行删减了23道测试题,仅使用477道题进行评估。
要知道,SWE-bench Verified作为评估AI编程能力的常用指标,原本包含500道测试题。而OpenAI这次的操作相当于人为制造了一个"子集的子集"。更令人惊讶的是,如果将被删除的23道题按零分计算,GPT-5的实际得分可能还不如Claude Opus 4.1,因为两者目前的差距仅有0.4%。
这已经不是OpenAI第一次这样操作了。早在GPT-4.1发布时,他们就以"测试题无法在基础设施上运行"为由,同样删减了23道题。讽刺的是,SWE-bench Verified这个基准本身就是OpenAI提出的,当时他们声称SWE-bench无法系统评估模型编程能力,所以特别提炼了这个子集。
更值得玩味的是,OpenAI在测试时使用了GPT-5的最大思维努力模式,却对比了Claude 4.1 Opus的基础输出模式。这种不对等的比较方式,使得测试结果更加缺乏说服力。
Anthropic方面显然已经注意到了这个问题。在Claude Opus 4.1的发布说明中,他们特别强调:"在所有Claude 4模型中,我们报告的分数基于完整的500个问题。OpenAI模型的得分基于477道问题的子集进行报告。"
最讽刺的是,SWE-bench Verified这个基准测试本身就是OpenAI与SWE-bench作者合作开发的。当时他们组织了93位资深程序员,从1699个样本中严格筛选出500道测试题,并按照难度分级。如今OpenAI却自己打破了这个标准。
如果参考原始的SWE-bench榜单,Claude 4 Opus目前仍然保持领先地位。这也让人不禁怀疑:GPT-5的编程能力是否真如宣传中那么强大?
GPT-5发布已有一段时间,不知各位开发者在实际使用中是否也遇到过类似问题?欢迎在评论区分享你的使用体验。
参考链接:
[1]https://www.swebench.com/
[2]https://openai.com/index/introducing-gpt-5/
[3]https://www.anthropic.com/news/claude-opus-4-1
免责声明
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
最新文章
中国稀土集团澄清:未参与"稀土人民币稳定币"合作项目
8月11日消息,中国稀土集团今晚发布严正声明,就网传信息辟谣。近日,部分网络媒体流传“中国稀土集团与蚂蚁集团、中国人民银行共建全球首个稀土人民币稳定币”等相关信息。针对此虚假编造、严重误导公众并扰乱
天猫国际自营Switch 2港版游戏机限时2884元
任天堂Switch 2港版已于2025年6月5日正式开售,标准版售价为3450港币(约合人民币3157元),而《马里奥赛车世界》组合版售价为3750港币(约合人民币3432元)。今日天猫国际自营全球
方程豹钛7首台量产车下线,四季度将正式上市
8 月 11 日消息,比亚迪旗下方程豹汽车宣布,方程豹钛 7 首台量产车正式下线。据了解,方程豹钛 7 是比亚迪旗下方程豹品牌推出的中大型 SUV 车型,此前已于 2025 年 6 月 20 日完
韩国HBM技术成芯片产业关键,三巨头供应链依赖加剧
8月11日消息,AI这两年来成为市场热点,并且也成为大国竞争的关键技术之一,NVIDIA的GPU虽然更强大,但在存储芯片上也要依赖韩国厂商,因为HBM内存逐渐卡住AI脖子。HBM(High Band
7月新能源汽车销量达126.2万辆,同比增长27.4%
8 月 11 日消息,中国汽车工业协会今日发布 7 月份汽车产销数据。数据显示,7 月新能源汽车产销分别完成 124 3 万辆和 126 2 万辆,同比分别增长 26 3% 和 27 4%,新能源
热门推荐
热门教程
更多- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程














