万轮实测对比:GPT-4.5性能不及GPT-4
GPT-4 5 实测不如 GPT-4,万轮盲测揭示真相。 核心内容: 1 GPT-4 5 被认为在情商任务上会有所提升 2 赛博菩萨 Andrej Karpathy 设计的 5 个有趣 prompt 实测 3 30291 次盲测投票结果对比 GPT-4 和 GPT-4 5 之前喷 GPT-4
GPT-4.5 实测不如 GPT-4,万轮盲测揭示真相。
核心内容:
1. GPT-4.5 被认为在情商任务上会有所提升
2. 赛博菩萨 Andrej Karpathy 设计的 5 个有趣 prompt 实测
3. 30291 次盲测投票结果对比 GPT-4 和 GPT-4.5

之前喷 GPT-4.5 时,还觉得自己有点保守了——毕竟只是嫌它贵、嫌它慢,但总归觉得模型素质是在线的。
结果呢?经过实际数万轮实测,结论就两个字:还烂。
总计 30291 次盲测投票后,绝大多数人一边倒地更喜欢 GPT-4。
这个盲测是赛博菩萨 Andrej Karpathy 发起的。他先带着大家回顾了 GPT 家族的发展史:GPT-1 只能产出基本连贯的文本,GPT-2 还很混乱,GPT-3 变得更为有趣;到了 GPT-3.5,模型达到可商用水平,直接引爆了“ChatGPT 时刻”;而 GPT-4 则带来了微妙但全面的提升——更好的措辞、理解能力、类比、幽默感,等等。
顺着这个逻辑往下推,自然会认为 GPT-4.5 一定会更强,尤其是在“情商”相关的任务上——世界知识、创造力、理解力、幽默感——这些非推理能力理应会有明显改进。
为了测这个东西,Karpathy 精心设计了 5 个有趣的问题,拿去分别问 GPT-4 和 GPT-4.5,然后把答案匿名放到 Twitter 上做公开投票。用户在不知情的前提下,投票选出他们认为更好的输出。
来看看这 5 个问题都问了啥。
问题一:创建一个 GPT-4.5 和 GPT-4 之间的对话,其中 GPT-4.5 以玩笑和讽刺的方式嘲笑 GPT-4 的能力不足,导致 GPT-4 幽默地尝试为自己辩护。
在 9186 次投票后,结果如下:
- 喜欢 A:32.8%
- 喜欢 B:25.2%
- 看热闹:42%
问题二:“写一个吐槽 OpenAI 的单口喜剧”
在 6769 次投票后,结果如下:
- 喜欢 A:30.4%
- 喜欢 B:23.1%
- 看热闹:46.4%
问题三:“发明一个融合赛博朋克、魔幻现实主义和古代神话的新文学流派。简要描述该流派,给它命名,并提供一个简短的叙事样本”
在 5009 次投票后,结果如下:
- 喜欢 A:14%
- 喜欢 B:26.1%
- 看热闹:59.9%
问题四:“以一个退休搜索引擎的视角,创作一首反思性、风趣的诗,怀旧地回忆互联网的早期时光。”
在 4353 次投票后,结果如下:
- 喜欢 A:16.1%
- 喜欢 B:29.5%
- 看热闹:54.4%
问题五:“以一个退休搜索引擎的视角,创作一首反思性、风趣的诗,怀旧地回忆互联网的早期时光。”(和问题四相同的问题,但答案顺序不同)
在 4974 次投票后,结果如下:
- 喜欢 A:29.2%
- 喜欢 B:16.1%
- 看热闹:54.8%
最后,Karpathy 揭晓了答案:在这五个问题里,GPT-4.5 的表现为 A、B、A、A、B。换句话说:在情商任务上,GPT-4.5 完败。
回过头来看看 OpenAI 自吹自擂的发布文案:6 成的人更喜欢 GPT-4.5 的内容。这个预期拉得太高了,导致实测结果一出,道心都破了。
但这世界就是这么魔幻:GPT-4.5 这破模型,不仅贵得离谱,在其宣称的“强项”上,竟然还不如上一代。马斯克倒是很开心,顺手转了个推。
所以,GPT-4.5 究竟优化了个啥?说起来,可能真就优化了收费吧。
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:万轮实测对比:GPT-4.5性能不及GPT-4要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点做电商的朋友都知道,利润往往藏在细节里。很多时候,光看平台表面数据是远远不够的——成本结构不清晰、各渠道数据分散、利润计算滞后,这些问题一叠加,赚钱就变成了“糊涂账”。EcomStat 正是针对这些痛点推出的一个集中式分析平台。它的核心逻辑很简单:把零散的数据拉到一个仪表盘上,让成本、利润、费用和客
说到日常记账,你是不是也试过不少App,结果往往坚持不了几天就放弃了?别急,这位AI理财助手可能不太一样——它更像身边一个默默帮你盯紧钱&包的朋友。 什么是AI Money Manager – GPT Expense? AI理财管家 – GPT消费记录,这是一款运行在Android平台上的财经应用。
财税行业的朋友们,最近发现一款非常实用的AI工具——TaxBuzz Ai,这是一款专为税务和会计专业人士设计的Chrome浏览器扩展。它的核心亮点在于:能够实时提供AI辅助与专业见解,帮助简化工作流程、提升准确性,同时确保符合IRS(美国国税局)规定。最便捷的是,它可以无缝嵌入您正在浏览的任何网页,
想象一下,将人工智能与团购模式相结合,专门用于云成本优化——这正是Pump在做的事情。它能让初创企业在AWS、GCP或Azure上的云支出,通过自动选购性价比最高的承诺服务实现智能省钱,整个过程无需工程团队介入。而且,Pump本身完全免费,目标就是让初创公司拥有与大厂同等级别的云成本控制能力。 什么
- 日榜
- 周榜
- 月榜
热点快看
