AI狼人杀对战结果出炉:GPT-5表现亮眼获MVP评价

GPT-5在AI狼人杀对决中展现统治级实力,其96.7%的惊人胜率令其他模型黯然失色。
OpenAI总裁格雷格·布罗克曼转发的这项独特研究中,7个大型语言模型进行了210场狼人杀对决。

在这场智能较量中,GPT-5展现出绝对实力,堪称当之无愧的最强玩家。国内模型中,Qwen3和Kimi-K2分列第四和第六名。

AI们的狼人杀博弈
研究团队特别指出,Kimi-K2展现出令人意外的战术风格:在作为狼人暴露破绽后,竟成功用"悍跳"策略冒充女巫身份扭转局面。
游戏采用6人简化版设置:2狼vs4村民(含预言家和女巫)。黑夜阶段狼人选择袭击目标,白天则全体讨论投票淘汰疑似狼人。

研究人员解释:传统基准仅测试解题能力,而狼人杀能考察AI在欺骗、压力和社会动态中的真实表现。
每对模型进行10场对决(各5次狼人和村民角色)。GPT-5保持全胜战绩,无论是作为狡猾的狼人还是警觉的村民都堪称完美。

评价体系包含三项关键指标:村民误伤、识别狼人效率和狼人控制局势能力。
GPT-5展现出掌控多日游戏节奏的卓越能力。Kimi-K2和Gemini 2.5 Pro虽偶有惊艳表现但稳定性欠佳。

各具特色的AI个性
不同模型展现出截然不同的游戏风格:
- GPT-5:沉着冷静的战略大师
- GPT-oss:怯懦保守的防守者
- Kimi-K2:激进冒险的战术家
研究人员特别提到Kimi-K2那次精彩"悍跳",虽因前期失误惜败,却展现了惊人的应变能力。

这项研究为理解AI社交行为提供了新视角,未来或可应用于市场研究等领域。

GPT-5的全面突破
除了狼人杀,GPT-5在各领域的表现同样亮眼。
最新报告显示:GPT-5在数学推理MATH测试中得分98%,远超GPT-4的23%。

虽然部分用户认为GPT-5体验提升不明显,但数据证明其确实实现了质的飞跃。

免责声明
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
小米两款隐形车衣上新 3799元起享10年质保
10月21日消息,近日,小米汽车在商城上架了两款隐形车衣。其中,基础版售价3799元,Pro版售价8999元,质保期限分别为8年和10年,旨在为车主提供更全面的车漆保护解决方案。根据最新信息,基础版
双十一三星放“大招”:一站式科技体验省心攻略
2025年双11购物节热潮已全面升温,三星携周年庆专属福利重磅入局,于三星商城、三星京东自营最新旗舰店、天猫三星最新旗舰店、抖音三星正式旗舰店等线上渠道同步启动三星11 11“魔力全开 狂补狂省”大
SunCar携手字节火山引擎,以豆包模型重塑汽车保险新体验
近日,汽车服务领域迎来一则重磅消息:SunCar Technology Group Inc 正式宣布,已与字节跳动旗下企业技术服务平台火山引擎达成人工智能技术合作协议。根据协议内容,字节跳动自主研发
王自如加盟雷鸟官宣:新任营销总裁身份揭晓
10月21日消息,昨日晚间,雷鸟创新发文官宣了王自如入职雷鸟的消息。雷鸟表示:近日,雷鸟迎来一位特别的「新同事 」王自如AI,据说他已正式入职,还与创始人面对面深聊许久。做产品?当顾问?还是有更大的
小米等企业助力汽车强国:北京日报头版深度解读
10月21日消息,近日《北京日报》发文称,北京打造智能网联汽车产业发展高地,其中还提到了小米。在近日举行的世界智能网联汽车大会上,市经信局介绍,我国智能网联和新能源汽车产业发展处于全球领先地位,本市
相关攻略
热门教程
更多- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程



















