OpenAI 员工公开指责 xAI:Grok 3 基准测试结果具有误导性
OpenAI员工公开指责xAI:Grok 3基准测试结果具有误导性
这周AI圈里热闹了。一位OpenAI的员工公开站出来,炮轰埃隆·马斯克旗下的xAI公司。焦点在于,后者新发布的AI模型Grok 3的基准测试结果,被认为“具有误导性”。不过,xAI的联合创始人伊戈尔·巴布什金马上站出来灭火,坚称公司做法并无不妥。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

事情源于xAI在自家博客上发布的一张图表。图表展示了Grok 3在AIME 2025上的表现——这是一项邀请制数学考试中的高难度题集,虽然业内对其作为AI基准的有效性一直有讨论,但它和它的早期版本,依然是评估模型数学能力的常用标尺之一。
图表显示,Grok 3的两个版本——Grok 3 Reasoning Beta和Grok 3 mini Reasoning——在AIME 2025上的得分,超过了OpenAI当前最强的可用模型o3-mini-high。然而,OpenAI的员工很快在社交媒体上指出了关键问题:xAI的图表,巧妙地将对手的一个高分给“藏”了起来——它没有包含o3-mini-high在“cons@64”条件下的得分。
这里需要解释一下,“cons@64”也就是“consensus@64”,指的是允许模型在测试中对每个问题尝试回答64次,然后取出现频率最高的答案作为最终答案。你猜怎么着?这种“多数决”的方式,往往能显著拉升模型的测试分数。如果一张对比图刻意省略了某个模型在这个条件下的成绩,那产生的观感就可能天差地别。
事实上,如果只看首次尝试的得分(即“@1”条件),Grok 3的两个版本其实都没能超过o3-mini-high。而且,Grok 3 Reasoning Beta的得分,也略低于OpenAI的o1模型在“中等计算”设置下的表现。但即便如此,xAI依然在对外宣传中,将Grok 3称为“世界上最聪明的AI”。
面对指责,巴布什金的回应相当直接:他翻出旧账,指出OpenAI过去也发布过类似的、用于比较自家模型性能的图表,在他看来,那些图表同样存在误导性。公说公有理,婆说婆有理,这场口水战的核心,似乎从“谁对谁错”变成了“大家都这么干”。
有意思的是,有位中立的第三方看不下去了,他重新绘制了一张图表,试图呈现更完整、更“准确”的对比情况:

然而,正如AI研究员内森·兰伯特在一篇文章里点出的,或许最重要的指标至今仍是笔糊涂账:每个模型为了获得这个“最高分”,究竟耗费了多少计算资源(说白了,就是烧了多少钱)。这个问题恰恰暴露了目前大多数AI基准测试的通病——它们在清晰传达一个模型的真实能力边界和成本优势方面,做得还远远不够。说到底,光看分数排座次,可能意义有限。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
星途EX7全球上市:双动力选择加持,智能安全奢华体验全面升级
星途EX7全球上市:六款车型双动力出击,重塑C级智能电动新标杆 汽车市场的新品浪潮中,总有几个时刻值得被记住。星途EX7的全球上市发布会,无疑就是这样一个高光时刻。这款新车一口气带来了六款配置,横跨纯电与增程两大动力路线,选择可谓相当丰富。具体来看,增程版提供了两驱Max、四驱Max和四驱EMB U
创新艺术字 : 创意艺术字生成
需求人群 如果你是一名设计师,正在为新的视觉项目寻找独特的字体灵感;或者是一位艺术家,希望为作品注入别具一格的文字元素;又或者,你身处广告创意行业,急需那些能瞬间抓住眼球的设计素材——那么,创新艺术字工具很可能就是你的创意弹药库。它精准服务于这些需要将文字本身作为艺术载体进行深度创作的场景。 产品特
QWIP : 随时随地咨询人工智能专家。
需求人群 当你突然遇到一些专业问题,身边又找不到可靠的人商量时,这个应用就派上用场了。比如身体有点小状况心里犯嘀咕,或者合同条款看不懂心里没底,再或者是想复刻某道美食却总差点意思——这种时候,你需要的其实就是一位能随时响应的专业人士。 使用场景 想象一下这些情形:用户A在人生地不熟的旅途中突然身体不
Skillflow : AI学习平台,简单、有趣、上瘾
需求人群 如果你正在寻找一种真正个性化的学习路径,希望高效提升自己的认知能力,或者单纯想找回那种沉浸式、高度专注的学习心流,那么这款工具可能正对你的胃口。它瞄准的,正是那些不满足于千篇一律的教学内容,追求智力挑战与乐趣并存的终身学习者。 使用场景 它的应用场景相当具体且深入。比如,当你决心啃下编程这
复工首日 DeepSeek 婉拒所有采访,有人已蹲守 5 次、日韩媒体来得最多
复工首日,DeepSeek门前:一次被婉拒的全球“围观” 春节假期后的第一个工作日,气氛总有些特别。对于坐落在汇金国际大厦的DeepSeek而言,这个早晨尤为引人注目。大楼门口,除了匆匆赶回工位的员工,还多了一群扛着“长枪短炮”的熟悉面孔——各家媒体的记者们早已在此守候。 现场的阵仗不小。据都市日报
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

