AI狼人杀对战结果出炉:GPT-5表现亮眼获MVP评价

AI狼人杀大战:GPT-5以96.7%胜率完胜各路模型
在最新的人工智能社交推理能力测试中,OpenAI总裁格雷格·布罗克曼分享了一项有趣的实验:7个顶尖语言模型进行了210场狼人杀对决。令人惊讶的是,GPT-5展现了碾压式优势,取得了96.7%的超高胜率。
国产模型表现亮眼
在这场AI对决中,国产模型表现不俗。Qwen3和Kimi-K2分别获得第四和第六的好成绩,其中Kimi-K2甚至展现出了惊人的"悍跳"战术。
测试规则与目的
研究人员设置了6人狼人杀对局,包含2名狼人和4名村民(含预言家和女巫)。该测试旨在评估模型在复杂社交环境中的表现,包括欺骗、信任建立和决策能力等关键指标。
GPT-5的绝对统治力
在所有对决中,GPT-5保持着全胜记录。测试采用了Elo评分系统考量三个维度:村民的自损程度、识别狼人的速度,以及狼人控制局势的能力。
各模型表现分析
作为狼人时,GPT-5展现出惊人的战略控制力,能够制定连续数日的完美计划;而Kimi-K2和Gemini 2.5 Pro则属于高风险高收益风格。作为村民时,GPT-5依然稳居榜首,其结构化推理能力能有效识别谎言。
AI展现人格特质
测试中最有趣的发现是不同模型展现出了鲜明的个性特征:GPT-5像个冷静的指挥官,GPT-oss显得优柔寡断,而Kimi-K2则像个大胆的赌徒,甚至上演了精彩的"悍跳"戏码。
GPT-5的其他突破
在其他基准测试中,GPT-5同样表现出色。相比GPT-4,在Mock AIME测试中提升了80%,在Level 5 MATH测试中达到98%的惊人准确率。
免责声明
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
最新文章
独家:宇树科技IPO上市时间正式敲定
宇树科技IPO(首次公开募股)的时间,终于定了! 最新确定的进程是这样的: 目前,公司正积极推进IPO的相关准备工作。 根据IPO计划,公司预计将在2025年10月至12月之间向证券交
OpenAI斥资11亿美元收购Statsig,加速AI产品商业化进程
9月3日消息,美国当地时间周二,OpenAI正式宣布以11亿美元收购产品分析公司Statsig,同时任命Statsig创始人兼CEO维贾伊·拉吉(Vijaye Raji)担任应用首席技术官,直接向应
AI热潮催生修复经济:技术革新背后的旧物翻新商机
目前,随着各种人工智能生成的内容的兴起,同时也伴随着各种“AI垃圾”泛滥,比如面对一些输出内容质量低劣或者错误的内容,企业不得不重新雇用大量人类员工,专门负责审核、修正和清理这些AI输出,以确保最终
"蔚小理零"格局演变:新势力车企半年盈利赛道的三大关键变化
2025 年,中国造车新势力正式进入 “盈利决胜” 的关键阶段。 截至9月2日,“蔚小理零”四家造车新势力2025年中报全部发布。财报数据与销量的大“洗牌”,折射出迥异的战略成效,新势力格局在半年
车企如何应对OTA新规?这些迭代模式需调整
当车企不再只追求“迭代速度”,而是开始构建“安全厚度”,竞争也就从功能炫技,转向了体系韧性、用户信任和伦理责任的深层较量。 麻 将 “汽车智驾这个行业很卷,
热门推荐
热门教程
更多- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程



















