谷歌与OpenAI让AI玩《精灵宝可梦》,实测GPT和Gemini谁更强
1月25日消息,要想准确评估AI的智能程度与能力,眼下涌现了各种各样的跑分测试和评测方法。不过,一种相对小众的测试方式,最近也在AI领域引发了不少关注。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

目前,谷歌、OpenAI和Anthropic等AI巨头,正让自家的大语言模型挑战《精灵宝可梦》经典系列游戏,并以此作为衡量其AI性能表现的新标尺。
Anthropic公司AI部门负责人戴维·赫什对此给出了他的解读:“比起《Pong》这类规则简单的游戏,《精灵宝可梦》之所以更能吸引机器学习社区的关注,是因为它的复杂性和开放性更强。这款游戏对计算机程序而言,充满了各种意想不到的挑战。”
实际上,赫什从去年开始就在Twitch平台上进行直播。他的日常就是用公司自家的Claude模型来玩《精灵宝可梦》。这位负责人平时的工作就是帮助客户部署AI解决方案,因此,他开启直播本质上也是一场公开的模型能力测试。
这位负责人的创新做法,也激发了不少开发者的灵感。他们陆续推出了“Gemini玩《宝可梦》”、“GPT玩《宝可梦》”等类似的直播节目。
后来,这些直播甚至引起了谷歌和OpenAI官方的注意。开发团队有时还会客串直播间,亲自调整模型参数。在最新的模型能力加持下,Gemini和GPT已经成功通关了Game Boy时代的《宝可梦蓝》,目前正在挑战续作;而Claude至今还没能打通任何一个版本。

那为什么要用《宝可梦》来评估AI性能呢?赫什解释道:“因为这款游戏能为我们提供一种直观观测模型表现的方法,同时还能够用量化指标来评估其综合能力。”
通常来说,玩家在《宝可梦》系列游戏中,需要不断升级、训练已有的或是刚刚抓到的宝可梦,还要击败道馆馆主来捕捉新的宝可梦。整个游戏流程并非简单的线性推进,而是充满了复杂的判断与取舍。
此外,玩家在游戏中还经常要面对各种抉择:是先冒险挑战强大的训练家来获取稀有宝可梦,还是稳扎稳打,打造出一支实力均衡的队伍。
显然,人类非常擅长做这类决策,这也是游戏的乐趣所在。但对于AI来说,这无疑是一场关于逻辑推理、风险评估以及长期规划能力的综合考验。
因此,研究人员会深入剖析AI在游戏中的决策方式,以更深刻地理解模型能力的边界所在。
赫什还会将AI玩《宝可梦》的过程与结果分享给客户,以帮助改进控制框架,从而提升其算力的使用效率,让模型能够更加高效地运转。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
越南机器人2025营收49.2亿增31.6% 研发加码赋能智能升级
从产品结构来看,四轴协作机器人收入达9295万元,占比18 9%;复合机器人收入6761万元,占比13 7%;具身智能业务收入2004万元,占比4 1%。公司表示,具身智能领域虽目前收入占比不高,但
壁仞科技2025营收毛利双增 研发投入加速智算项目落地
壁仞科技近日在港交所发布最新财务公告,2025年全年实现收入10 35亿元,同比激增207 2%,展现出强劲的增长势头。公司毛利率提升至53 8%,较上年增长63个基点,达到5 57亿元的毛利水平,
工业元宇宙杀手锏:制造业如何创新驱动“养龙虾”?
智东西作者 云鹏编辑 漠影今年,一方面OpenClaw(龙虾)爆火出圈,各大云厂商、互联网大厂争先接入、适配龙虾。但另一方面,数据隐私安全问题一度冲上热搜,成为全民热议的社会现象。积极来看,“龙虾”
深度剖析Qwen3.5-Omni:全模态感知与生成核心能力详解
3月30日,千问宣布上线Qwen3 5-Omni。Qwen3 5-Omni系列包含Plus、Flash、Light三种尺寸的Instruct版本,支持256k长上下文,模型支持超过10小时的音频输
中国开源OCR项目霸榜GitHub,狂揽7.3万星全球瞩目
西风 发自 凹非寺量子位 | 公众号 QbitAIGitHub OCR项目之王刚刚历史性易主。诞生近40年、统治OCR领域的技术标杆Tesseract OCR,被中国开源拉下王座——百度文心衍生模型
- 日榜
- 周榜
- 月榜
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程

