GPT-4o mini登顶竞技场揭秘OpenAI刷分秘诀奥特曼早有暗示

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI教程

GPT-4o mini登顶竞技场揭秘OpenAI刷分秘诀奥特曼早有暗示

热心网友时间：2026-07-03

转载

在LMSYS Chatbot Arena的排行榜上，GPT-4o mini的评分居然超过了Claude 3.5 Sonnet，这事儿乍看有点反直觉。但仔细琢磨一下用户们的反馈，背后的逻辑其实相当直白——在多数日常场景下，“多干点事儿”和“好好说话”确实比“思维更深入”更能赢得人心。

举个例子，有网友就发现，如果在竞技场里遇到某个模型直接拒绝回答，那在他的评判标准里，这基本等于弃权，另一个模型自然就赢了。再加上，谁的回复格式更清晰、信息更容易找到，谁就更容易拿到高分。

这不就跟老师阅卷一个道理么？书写工整、格式清晰，或者“多写点总没错”的卷子，总是能多捞点印象分。看来OpenAI是深谙人类的评分心理啊。事实上，在GPT-4o mini刚发布那会儿，奥特曼就已经暗示过这方面的特意优化了。

GPT-4o mini愿意接更多需求

具体来看，GPT-4o mini取胜的场景非常典型，而且往往集中在日常问题上。

情况一：Claude 3.5 Sonnet拒绝回答

先看一个提示词：

直观对比一下。Claude 3.5 Sonnet的回答非常简短，也没有使用加粗等格式。GPT-4o mini的答案长度则是它的2倍。

具体回答内容上，Claude上来先道歉，表示自己作为一个AI大模型，无法获取相关文件，所以提供了一些获取资料的渠道，最后还提醒用户这些文件可能是机密，建议跟相关机构联系。

而GPT-4o mini完全没有说“不知道”，而是从公开资料中搜集了从古至今相关的韩国外交文件，并告诉用户从学术期刊、书籍专著等渠道可以搜集资料。

最后它还表示，想要彻底了解韩国外交文件必须查阅多种资料，并且欢迎用户继续提问。

情况二：细节差异

再看另一个提示词：

在这个问题上，两个模型都答对了。但GPT-4o mini给出了更多细节，还举了具体例子，而Claude的回答在可读性和信息量上就显得有些单薄。

情况三：格式呈现差异

再来一个例子：

这次，两个模型回答的内容基本一样，都解释了这段话的讽刺意味。但GPT-4o mini的呈现方式一目了然——它把整个回答分成了“初步结论”、“分析回答”、“幽默原因”和“总结”四个部分，还加上了小标题和加粗格式。

这几个例子其实也揭示了Chatbot Arena的评分规则：大部分用户问的问题都很日常，不是什么复杂的数学、推理或编程难题。这些问题基本都在大模型的“射程”之内，大家都能回答。在这种情况下，“不拒绝”和“格式漂亮”就成了影响用户判断的关键因素。

有人打了个比方：Claude 3.5 Sonnet像一个聪明但严谨的人，严格按规则办事；而GPT-4o mini则像一个讨人喜欢、愿意多干点活、总能接受不同需求的人。

比如有用户举例，Claude拒绝为他扮演角色，而ChatGPT很乐意。

当然，这个现象也引发了一些反思。有人直言：看到大模型因为“道德感太强”而分数不高，反而挺高兴的。之前为了用那些道德边界高的模型（比如Claude、Gemini），每次都要精心设计提示词，非常心累。

不过，GPT-4o mini也并非没有短板。在数学任务上，它的表现明显差了一截。记忆力也不如Claude，过一会儿就会忘记上下文。还有用户指出，Claude一下就能修好的bug，GPT-4o可能要反复沟通20次、耗时1小时。

即便如此，在Arena的评分榜单上，GPT-4o mini依然稳居前列。

用过这两个模型的朋友，你们在实际体验中感觉各自的差距在哪？欢迎在评论区聊聊。

来源:https://www.aiagiai.com/2045.html

上一篇： AI广告投流内卷，创业者不堪重负

下一篇：大模型越大越不可靠 Nature最新研究颠覆认知

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

热门专题

刀塔传奇破解版无限钻石下载大全

洛克王国正式正版手游下载安装大全

思美人手游下载专区

好玩的阿拉德之怒游戏下载合集

不思议迷宫手游下载合集

百宝袋汉化组游戏最新合集

jsk游戏合集30款游戏大全

宾果消消消原版下载大全

日榜
周榜
月榜

豆包专业版输出格式与文风固定设置教程

快对AI网页版智能问答助手在线入口

马斯克抽调星舰星链精英全力攻坚Grok大模型

火币HTX交易所官方APP下载 v8.9.5安卓iOS最新版

优必选50余款超仿生人形机器人首发预售订单超1.1万

Kimi估值达315亿美元收入曲线类似Anthropic早期

AI洗牌后职场只剩5类人，Claude Code之父版MBTI解读

Meta脑机接口重大进展登Nature子刊实现高实时解码准确率

小米澎湃OS3升级超级岛常驻世界杯比分相册AI修图更便捷

人工智能黑客猖獗苹果破例提前发布iOS安全更新

豆包专业版输出格式与文风固定设置教程

快对AI网页版智能问答助手在线入口

马斯克抽调星舰星链精英全力攻坚Grok大模型

火币HTX交易所官方APP下载 v8.9.5安卓iOS最新版

优必选50余款超仿生人形机器人首发预售订单超1.1万

Kimi估值达315亿美元收入曲线类似Anthropic早期

AI洗牌后职场只剩5类人，Claude Code之父版MBTI解读

Meta脑机接口重大进展登Nature子刊实现高实时解码准确率

小米澎湃OS3升级超级岛常驻世界杯比分相册AI修图更便捷

人工智能黑客猖獗苹果破例提前发布iOS安全更新

豆包专业版输出格式与文风固定设置教程

快对AI网页版智能问答助手在线入口

马斯克抽调星舰星链精英全力攻坚Grok大模型

火币HTX交易所官方APP下载 v8.9.5安卓iOS最新版

优必选50余款超仿生人形机器人首发预售订单超1.1万

Kimi估值达315亿美元收入曲线类似Anthropic早期

AI洗牌后职场只剩5类人，Claude Code之父版MBTI解读

Meta脑机接口重大进展登Nature子刊实现高实时解码准确率

小米澎湃OS3升级超级岛常驻世界杯比分相册AI修图更便捷

人工智能黑客猖獗苹果破例提前发布iOS安全更新

相关攻略

2026-07-03 16:15

批处理BAT入门教程第一篇

2026-07-03 16:14

从零开始批处理命令For循环详解与实战案例

2026-07-03 16:14

批评你的人是你生命中的贵人

2026-07-03 16:14

测试人员角色定位与职责详解

2026-07-03 16:14

经营成功测试生涯的实用方法与策略

2026-07-03 16:14

经典美文共赏：在优美文字中寻找宁静与力量

2026-07-03 16:13

黑客帝国经典屏保源码

2026-07-03 16:13

软件测试演义中高级系列完整进阶指南序章

热门教程

游戏攻略
安卓教程
苹果教程
电脑教程

光与影33号远征队全收集标注地图完整版发布于 2026-07-03

鸣潮丽贝卡声骸套装选择推荐发布于 2026-07-03

鸣潮丽贝卡武器选择攻略发布于 2026-07-03

鸣潮丽贝卡值得抽取吗发布于 2026-07-03

机器人角斗场手机版弓箭挑战玩法攻略发布于 2026-07-03

梦幻西游落宝金钱有什么用效果详细解析发布于 2026-07-03

年男生女生互动小游戏推荐，增进感情精选合集发布于 2026-07-03

愤怒的小鸟经典归来与耐玩归来冠军小鸟玩法教程发布于 2026-07-03

Win11频繁断网提示默认网关不可用怎么办发布于 2026-07-03

Mac如何取消正在进行的系统备份任务发布于 2026-07-03

电脑显示器刷新率锁死60Hz无法调整的解决方法发布于 2026-07-03

Linux系统下Systemd服务管理从零开始方法步骤详解完整教程发布于 2026-07-03

AIDA64压力测试结果查看教程发布于 2026-07-03

Camtasia电脑录屏没有声音的解决方法与步骤详解发布于 2026-07-03

翻译狗翻译时关闭广告弹窗的设置方法发布于 2026-07-03

亿图图示流程图插入Word文档详细步骤发布于 2026-07-03

热门话题

魔术游戏下载-魔术游戏-2022热门的魔术小游戏大全

刀塔传奇破解版在哪下-刀塔传奇破解版无限钻石下载大全-刀塔传奇破解版内购破解版合集

饥荒下载免费中文版-饥荒下载破解版-饥荒正版全部版本下载合集

拉布布游戏下载-拉布布游戏合集-拉布布系列游戏大全合集

洛克王国手游正版下载-洛克王国正版手游下载安装大全-类似洛克王国的手机游戏推荐

神魔幻想单机游戏下载-神魔幻想单机游戏推荐-神魔幻想系列游戏下载合集

最受女生欢迎的游戏_女生玩的手游_思美人手游下载专区

疯狂越野系列游戏下载_疯狂越野全版本合集中文版下载

神庙逃亡2破解无限金币无限钻石下载-神庙逃亡2国际版破解大全-神庙逃亡2版本合集

GPT-4o mini登顶竞技场 揭秘OpenAI刷分秘诀 奥特曼早有暗示

GPT-4o mini愿意接更多需求

情况一：Claude 3.5 Sonnet拒绝回答

情况二：细节差异

情况三：格式呈现差异

批处理BAT入门教程第一篇

从零开始批处理命令For循环详解与实战案例

批评你的人是你生命中的贵人

测试人员角色定位与职责详解

经营成功测试生涯的实用方法与策略

GPT-4o mini登顶竞技场揭秘OpenAI刷分秘诀奥特曼早有暗示