复旦RL新思路：用游戏增强VLM推理，性能匹敌几何数据

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

科技数码

复旦RL新思路：用游戏增强VLM推理，性能匹敌几何数据

热心网友时间：2025-10-22

转载

复旦大学NLP实验室开发的Game-RL项目，巧妙借助电子游戏丰富的视觉元素与清晰规则，构建出多模态可验证的推理数据集，通过强化学习显著提升了视觉语言模型的逻辑推理能力。团队创新性地提出Code2Logic方法，系统化地合成游戏任务数据，精心构建GameQA数据集，验证了游戏环境在复杂推理训练中的独特优势。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

现有研究大多局限于几何图形或图表理解这类简单场景，导致视觉语言模型的训练数据缺乏多样性。这种认知局限显然制约了模型能力的深度发展。

那么，应该如何拓宽视觉语言模型的训练边界呢？

电子游戏不仅视觉元素丰富多样，其规则体系更具备明确的可验证性，堪称理想的多模态推理训练素材。

为此，复旦大学NLP实验室的研究团队开创性地提出了Game-RL方案——通过构建多模态可验证的游戏任务来强化视觉语言模型的训练效果。

论文链接：https://arxiv.org/abs/2505.13886

代码仓库：https://github.com/tongjingqi/Game-RL

数据和模型：https://huggingface.co/Code2Logic

为获得高质量训练数据（如图1所示），研究人员还提出了新颖的Code2Logic方法，通过游戏代码实现数据的系统化合成。

图1：GameQA数据集中涵盖的四类代表性游戏：3D场景重建、七巧板变体、数独游戏和推箱子挑战。每个游戏展示了两个视觉问答样例，包含当前游戏状态画面、对应问题，以及完整的推理步骤和正确答案。

Code2Logic方法的创新之处在于，它能够基于游戏代码合成多模态可验证的游戏推理数据。

如图2所示，该方法利用大语言模型生成游戏代码、设计任务及其模板、构建数据引擎代码，最终只需执行代码即可自动生成训练数据。

图2：Code2Logic方法通过三个核心步骤，将游戏代码转化为推理数据。首先生成游戏代码框架；接着设计游戏任务及对应的问答模板；最后构建数据生成引擎，通过程序化方式批量产出训练样本。

GameQA：丰富的游戏任务数据集

依托Code2Logic方法构建的GameQA数据集，为视觉语言模型的推理能力训练与评估提供了优质素材。

GameQA数据集包含4大核心认知能力类别、30款精选游戏、158个推理任务，以及14万个精心标注的问答对。

该数据集采用双重难度分级：任务难度分为三个等级；样本按视觉输入复杂度同样分为三级。

图3：GameQA包含的30款游戏，涵盖4个认知能力维度：3D空间推理、模式识别与匹配、多步骤逻辑推演、策略规划执行。其中20款领域内游戏用于模型训练，而10款领域外游戏专门用于评估模型在陌生游戏场景中的泛化能力。

核心发现：Game-RL显著提升视觉语言模型的通用推理能力

在GameQA数据集上采用GRPO训练策略后，4个开源视觉语言模型在7个完全跨域的通用视觉推理基准上均取得显著提升（Qwen2.5-VL-7B平均提升2.33%），展现出卓越的跨领域泛化性能，如表1所示。

表1：通用视觉语言推理基准测试结果

训练效果：GameQA媲美几何推理数据集

研究团队用GameQA与几何和图表推理数据集进行对比训练，结果发现GameQA训练出的模型整体表现极具竞争力。

如表2所示，尽管训练数据量更少且领域不匹配，但基于GameQA训练的模型在通用基准上表现优异。特别在MathVista与MathVerse这两个几何与函数推理相关的基准测试中，游戏数据训练效果竟能与更“对口”的几何推理数据集相抗衡。

这表明游戏环境中蕴含的认知多样性和推理复杂性，具备出色的通用性和迁移能力。

表2：不同训练数据的对比效果，5K GameQA样本 vs. 8K MAVIS（几何与函数视觉推理）vs. 8K Multimodal-Open-R1（以几何推理为主）vs. 8K MultiMath（融合型多模态数学推理）。实验还显示混合训练（在MultiMath中加入GameQA数据）能帮助模型获得更大提升。