当前位置: 首页
AI
开源通用视觉推理RL框架零思考数据刷新SOTA刘壮陈丹琦新作

开源通用视觉推理RL框架零思考数据刷新SOTA刘壮陈丹琦新作

热心网友 时间:2026-05-19
转载

通用视觉推理的强化学习框架开源版本正式发布,为AI社区带来突破性进展。

这项名为Vero的研究项目由普林斯顿大学刘壮团队主导,陈丹琦教授参与协作。项目基于创新的方法论构建,其视觉推理模型在图表解析、科学问答、空间关系判断及多样化开放视觉任务中均展现出卓越性能。尤为突出的是,该模型在超过30项权威基准测试中,达到了8B参数视觉语言模型的顶尖水准。

图片

尽管GPT、Gemini等顶级模型早已展示了强大的视觉理解能力,但其背后精妙的强化学习训练方案一直是科技公司的核心机密。开源社区虽持续跟进,但多数方案往往局限于特定任务,例如专攻数学解题或图表分析,一旦面临任务类型切换,模型泛化能力便显著下降。

Vero的核心突破正在于此。它不仅提供了一个高性能模型,更贡献了一套完整、可复现的通用视觉推理训练框架。正如项目负责人刘壮所言,这项工作证明了“在学术研究环境中,凭借合适的人才与投入,同样能够取得与顶尖工业界团队相媲美的部分成就”。

开源RL方案,如何攻克视觉推理?

构建通用的视觉推理模型,通常面临两大核心挑战。

首先是“能力窄化”问题。基于现有开源强化学习方案训练的视觉语言模型,往往仅在单一任务类型上表现优异。一个在图表问答中表现出色的模型,在面对需要空间定位的任务时,性能可能急剧下滑。

其次是“任务混淆”问题。若尝试混合多种任务数据进行训练以期获得通用能力,结果常适得其反——模型不仅未能成为通才,反而因不同任务目标间的冲突导致性能崩溃,学习过程陷入混乱。

问题的根源何在?Vero团队深入研究发现,不同的视觉任务本质上激发并依赖于模型不同的推理策略。例如,解答图表问题需要精确的数据提取与逻辑比对,而完成物体定位则依赖于对图像的空间扫描与特征关联能力。使用同一套训练策略应对所有任务,自然难以取得理想效果。

针对这些根本性难题,Vero团队提出了三项核心解决方案。

Vero-600K:高质量、多样化的训练基石

首先,研究团队从59个公开数据集中进行严格筛选与清洗,构建了一个包含60万高质量样本的训练集——Vero-600K。

该数据集并非简单聚合,而是被系统性地划分为六大类别,全面覆盖视觉推理的核心维度:

  • 图表与OCR:专注于图表信息解读与光学字符识别。
  • STEM:涵盖科学、技术、工程及数学领域的复杂问题。
  • 空间与动作:理解物体间的空间关系及动作指令。
  • 知识与识别:考察通用常识与特定物体识别能力。
  • 定位、计数与搜索:涉及目标定位、数量统计与视觉搜索任务。
  • 描述与指令遵循:生成准确的图像描述并执行复杂的多步指令。

图片

实验数据明确显示,仅在单一任务类型上进行强化学习训练的模型,其泛化能力极为有限。更严重的是,针对某类任务的专项优化,往往会损害模型在其他任务上的表现,出现显著的“负迁移”现象。

相比之下,在Vero-600K这种广泛且均衡的多任务数据集上进行训练,模型能够学习到通用的视觉推理模式,有效避免“偏科”,从而实现稳健且强大的跨任务泛化能力。

图片

任务路由奖励:给不同问题配上专属裁判

第二项关键创新在于其动态奖励机制。视觉推理任务的答案形式差异巨大:选择题有固定选项,数学题要求精确数值,开放描述题则无标准答案。使用统一的评分标准显然不合理。

为此,Vero引入了“任务路由奖励”机制。该系统如同一个智能调度中心,能够根据当前处理的任务类型,自动将模型输出路由至相应的“专属评估模块”进行打分。

具体而言,对于选择题,直接判断选项正误即可。对于数学题,则调用数学校验器核对计算过程与最终结果。而对于开放式描述问题,Vero会引入另一个大型语言模型作为“评判官”,从相关性、准确性和完整性等多维度评估回答质量。

图片

单阶段强化学习:大道至简的威力

第三点,也是最具启发性的发现,在于训练流程的极大简化。此前,一些顶尖闭源模型的强大能力,被认为部分依赖于使用私有“思维链”数据进行复杂多阶段训练。

而Vero的研究结果表明,解决方案可以更为简洁:只要具备高质量的数据过滤、均衡的任务混合以及精准的路由奖励机制,仅通过单阶段强化学习,便足以充分激发基础模型的通用视觉推理潜力

实验结果提供了有力佐证。在未使用任何私有“思维”数据的情况下,基于Vero框架训练的模型,在30个基准测试中的23项上,其性能均超越了经过专门指令微调的Qwen3-VL-8B-Thinking模型。

图片

深入的消融实验进一步揭示,广泛而高质量的数据覆盖是推动视觉推理强化学习性能提升的核心驱动力。这为未来研究指明了清晰路径:与其过度设计复杂的训练流水线,不如在提升数据多样性与质量上投入更多精力。

目前,Vero项目的全部核心资源——包括精心构建的数据集、完整的训练代码以及预训练好的模型权重——均已开源,为整个AI研究社区提供了极具价值的基准与可复现的起点。

背后的研究团队

Vero项目的两位通讯作者是Gabriel Sarch博士与蔡林嵘。

Gabriel Sarch博士毕业于卡内基梅隆大学,现任普林斯顿大学语言与智能中心(PLI)博士后研究员。值得一提的是,论文作者之一的陈丹琦教授,目前正担任PLI的副主任。

蔡林嵘本科毕业于威斯康星大学麦迪逊分校,目前正在普林斯顿大学攻读计算机科学硕士学位,师从刘壮教授,并由Gabriel Sarch博士联合指导。他的研究方向集中于视觉语言模型中的复杂推理问题。

项目负责人刘壮教授,本科毕业于清华大学计算机科学实验班(姚班),随后于加州大学伯克利分校获得博士学位,现任普林斯顿大学计算机科学助理教授。其学术生涯成果卓著:在CVPR 2017上,其作为第一作者的DenseNet论文荣获最佳论文奖;在Meta FAIR担任高级研究科学家期间,他与谢赛宁合作提出了具有影响力的ConvNeXt架构。在Meta期间,他与何恺明、Yann LeCun等顶尖学者亦有着深入的合作。

项目地址:https://vero-reasoning.github.io/

来源:https://www.51cto.com/article/840429.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
可灵AI制作陶艺拉坯动画教程:从零到一的详细步骤

可灵AI制作陶艺拉坯动画教程:从零到一的详细步骤

你是否曾尝试使用可灵AI生成陶艺拉坯过程的演示视频,却常常发现生成的动作不够自然,手部与泥坯的形变也缺乏连贯的物理逻辑?这主要是因为通用的视频生成模型,并未针对陶瓷制作这类需要精细、专业动作序列的领域进行专门训练。但无需担忧,通过一系列针对性的优化策略,我们完全可以引导AI输出更符合物理规律与行业标

时间:2026-05-19 22:33
CodeBuddy代码重构实战指南:方法与步骤详解

CodeBuddy代码重构实战指南:方法与步骤详解

面对代码结构混乱、逻辑耦合严重、命名不规范的技术债务,团队常因资源紧张、时间有限而难以启动重构。传统人工重构不仅成本高、风险大,后续的验证工作也令人望而生畏。 如今,有了更高效的解决方案。CodeBuddy 提供多种灵活的重构路径,能针对不同场景,系统化地帮助你清理代码债务。无论是单文件的局部优化,

时间:2026-05-19 22:32
优化Figma大文件加载慢问题:清理隐藏图层释放内存

优化Figma大文件加载慢问题:清理隐藏图层释放内存

处理大型Figma设计文件时,如果遇到加载缓慢、页面空白或操作卡顿,问题往往不在于你的电脑配置,而在于文件内部那些“看不见的负担”——堆积的隐藏图层、未释放的内存引用以及冗余的资源占用。别担心,这并非无解。通过一套系统性的内存管理和图层清理流程,完全可以让臃肿的文件重新变得轻盈流畅。下面,我们就来一

时间:2026-05-19 22:32
SSH密钥配置与访问权限安全设置最佳实践

SSH密钥配置与访问权限安全设置最佳实践

如果您的QoderWake服务器环境仍然依赖传统密码进行远程登录,这相当于在服务器入口仅安装了一把简易挂锁,安全防护极为薄弱。暴力破解攻击、会话劫持风险、凭证意外泄露……这些安全隐患时刻威胁着系统安全。将认证机制全面升级为SSH密钥登录,并结合系统性的安全加固策略,是构建企业级服务器访问安全防线的行

时间:2026-05-19 22:32
车企集体布局机器人技术如何推动汽车工业智能化变革

车企集体布局机器人技术如何推动汽车工业智能化变革

全球主流车企正跨界布局具身智能机器人,借助技术复用、制造协同与场景闭环等优势,破解硬件成本高、量产不足与盈利模式模糊等产业瓶颈。此举旨在推动人形机器人实现万台级规模化应用,完成向“具身智能解决方案提供商”的战略转型,重塑智能制造与人工智能的未来格局。

时间:2026-05-19 22:32
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程