复旦RL新思路:用游戏增强VLM推理,性能匹敌几何数据
复旦大学NLP实验室开发的Game-RL项目,巧妙借助电子游戏丰富的视觉元素与清晰规则,构建出多模态可验证的推理数据集,通过强化学习显著提升了视觉语言模型的逻辑推理能力。团队创新性地提出Code2Logic方法,系统化地合成游戏任务数据,精心构建GameQA数据集,验证了游戏环境在复杂推理训练中的独特优势。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
现有研究大多局限于几何图形或图表理解这类简单场景,导致视觉语言模型的训练数据缺乏多样性。这种认知局限显然制约了模型能力的深度发展。
那么,应该如何拓宽视觉语言模型的训练边界呢?
电子游戏不仅视觉元素丰富多样,其规则体系更具备明确的可验证性,堪称理想的多模态推理训练素材。
为此,复旦大学NLP实验室的研究团队开创性地提出了Game-RL方案——通过构建多模态可验证的游戏任务来强化视觉语言模型的训练效果。

论文链接:https://arxiv.org/abs/2505.13886
代码仓库:https://github.com/tongjingqi/Game-RL
数据和模型:https://huggingface.co/Code2Logic
为获得高质量训练数据(如图1所示),研究人员还提出了新颖的Code2Logic方法,通过游戏代码实现数据的系统化合成。

图1:GameQA数据集中涵盖的四类代表性游戏:3D场景重建、七巧板变体、数独游戏和推箱子挑战。每个游戏展示了两个视觉问答样例,包含当前游戏状态画面、对应问题,以及完整的推理步骤和正确答案。
Code2Logic方法的创新之处在于,它能够基于游戏代码合成多模态可验证的游戏推理数据。
如图2所示,该方法利用大语言模型生成游戏代码、设计任务及其模板、构建数据引擎代码,最终只需执行代码即可自动生成训练数据。

图2:Code2Logic方法通过三个核心步骤,将游戏代码转化为推理数据。首先生成游戏代码框架;接着设计游戏任务及对应的问答模板;最后构建数据生成引擎,通过程序化方式批量产出训练样本。
GameQA:丰富的游戏任务数据集
依托Code2Logic方法构建的GameQA数据集,为视觉语言模型的推理能力训练与评估提供了优质素材。
GameQA数据集包含4大核心认知能力类别、30款精选游戏、158个推理任务,以及14万个精心标注的问答对。
该数据集采用双重难度分级:任务难度分为三个等级;样本按视觉输入复杂度同样分为三级。

图3:GameQA包含的30款游戏,涵盖4个认知能力维度:3D空间推理、模式识别与匹配、多步骤逻辑推演、策略规划执行。其中20款领域内游戏用于模型训练,而10款领域外游戏专门用于评估模型在陌生游戏场景中的泛化能力。
核心发现:Game-RL显著提升视觉语言模型的通用推理能力
在GameQA数据集上采用GRPO训练策略后,4个开源视觉语言模型在7个完全跨域的通用视觉推理基准上均取得显著提升(Qwen2.5-VL-7B平均提升2.33%),展现出卓越的跨领域泛化性能,如表1所示。

表1:通用视觉语言推理基准测试结果
训练效果:GameQA媲美几何推理数据集
研究团队用GameQA与几何和图表推理数据集进行对比训练,结果发现GameQA训练出的模型整体表现极具竞争力。
如表2所示,尽管训练数据量更少且领域不匹配,但基于GameQA训练的模型在通用基准上表现优异。特别在MathVista与MathVerse这两个几何与函数推理相关的基准测试中,游戏数据训练效果竟能与更“对口”的几何推理数据集相抗衡。
这表明游戏环境中蕴含的认知多样性和推理复杂性,具备出色的通用性和迁移能力。

表2:不同训练数据的对比效果,5K GameQA样本 vs. 8K MAVIS(几何与函数视觉推理)vs. 8K Multimodal-Open-R1(以几何推理为主)vs. 8K MultiMath(融合型多模态数学推理)。实验还显示混合训练(在MultiMath中加入GameQA数据)能帮助模型获得更大提升。
规模效应:训练数据量与游戏种类的关键影响
数据量的规模效应:当训练使用的GameQA数据量增加到20K时,模型在通用推理基准上的表现持续提升,如图4所示。

图4:训练数据量的扩展效应
游戏种类的规模效应:随着训练涵盖的游戏种类增多,模型在领域外的泛化效果明显增强,如图5所示。

图5:使用20种不同游戏进行任务训练,模型在领域外通用基准上的提升效果优于仅使用4种或10种游戏的配置。
深度剖析:Game-RL主要提升了模型的哪些能力?
为深入理解Game-RL对视觉语言模型推理能力的提升机制,研究团队随机采样案例进行了细致的人工分析。结果显示,经过Game-RL训练后,模型在视觉感知和文本推理两个维度都有明显进步,详见图6。

图6:人工定性分析显示,模型的视觉感知与文本推理能力均有提升。上方两个饼图分别展示了模型在跨域场景中视觉感知和文本推理能力的变化趋势,下方是视觉感知能力提升的一个典型案例。
结论
本研究创新提出了Game-RL训练框架及游戏数据合成方法Code2Logic,构建了高质量的GameQA数据集,成功将视觉语言模型的强化训练领域拓展至游戏场景。
通过系列实验,研究团队验证了Game-RL能够有效提升视觉语言模型的通用推理能力。
更重要的是,这项研究揭示了游戏场景能够提供多样化、可控制、可验证的训练数据,具有重要的研究价值。
参考资料:
https://arxiv.org/abs/2505.13886
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
vivo X300 Ultra 手机维修备件价格公布:屏幕优惠价 1320 元,主板 3300 元起
vivo X300 Ultra维修价格出炉:看懂这份“后期养护”清单 vivo X300 Ultra昨天正式开卖,作为一款搭载了第五代骁龙8至尊版和蔡司大师镜头群的旗舰,6999元起的售价彰显了它的定位。新机到手,除了性能与影像,它的“后期养护”成本也成了不少用户关心的重点。这不,官方维修备件价格已
玄派玄机 16 2026 笔记本电脑上架:AMD 锐龙 AI Max+ 395,128GB + 2TB
玄派玄机 16 2026 笔记本电脑上架:AMD 锐龙 AI Max+ 395,128GB + 2TB 来了,一款瞄准专业创作和重度计算场景的移动工作站新鲜出炉。4月6日消息,玄派旗下的Metaphyuni系列新品——玄机16 2026笔记本电脑已经正式上架。其核心配置相当惹眼,直接搭载了AMD顶级
内存疯涨三星赚翻了!Q1利润暴涨600%以上 还得继续涨
存储芯片价格持续上涨,行业格局迎来深刻调整 近期存储芯片市场的普遍涨价,给众多下游电子厂商带来了显著的成本压力。与此同时,智能手机、个人电脑等终端产品全年出货量面临下滑,已成为业界共识。然而,市场格局往往是动态平衡的,对于三星电子这样的半导体巨头而言,当前的市场环境可谓机遇难得——公司第一季度盈利表
Meta 为雷朋 Display 智能眼镜推出第二个重大更新:新增营养追踪、聊天消息摘要、屏幕录制功能...
Meta 为雷朋智能眼镜推出第二代重要升级:新增营养追踪、消息摘要与高清屏幕录制功能 Meta 近日向旗下与雷朋联名研发的智能眼镜——Ray-Ban Meta 正式推送了第二次重大软件更新。此次升级并非无关痛痒的小修小补,而是新增了多项实用功能,例如基于AI视觉的实时营养分析、WhatsApp聊天智
OPPO A6k 手机上市:天玑 6300 + LCD 直屏 + 7000mAh 电池,定价 1999 元起
OPPO A6k手机重磅发布:天玑6300处理器、高清LCD直屏、7000mAh超大电池,售价仅1999元起 OPPO旗下广受欢迎的A系列再添实力新机。近日,备受期待的OPPO A6k正式上市发售。这款新品搭载了备受好评的天玑6300八核处理器,并配备了一块容量高达7000mAh的耐用长寿电池,成为
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程

