上海AI实验室联合突破：视觉模型学会动手解决实际问题

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

上海AI实验室联合突破：视觉模型学会动手解决实际问题

热心网友时间：2026-05-13

转载

在人工智能快速发展的今天，我们都熟悉像ChatGPT这样能对话的AI，也体验过能识别图片的视觉模型。然而，当期望AI不仅能“看懂”图像和视频，还能像人类一样“动手”分析、处理和解决视觉问题时，一个令人头疼的难题便浮现出来。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

举个例子，给AI看一张复杂的图表，询问某个细节的位置。传统模型或许会回答“在左上角”，但如果你希望它能像人类分析师那样，放大特定区域、标记重点、甚至裁切出来进行独立分析，事情就变得困难了。这好比只给了AI一双眼睛，却没给它一双手，导致其只能被动观察，无法主动操作。

更棘手的是，当研究人员尝试用强化学习训练这类具备“动手”能力的视觉模型时，常常会遭遇一种被称为“交互崩溃”的奇特现象。这就像一个起初勤奋的学生，经过一段训练后，反而变得越来越“懒惰”：能用一步解决就绝不用两步，能直接给答案就不愿深入分析过程。这种现象甚至让一些研究者怀疑，赋予AI“动手”能力是否真的有价值。

面对这一挑战，一个由上海AI实验室、马里兰大学、香港中文大学、清华大学、Shanda AI Research及莱斯大学组成的国际团队，在2026年2月发表了一项突破性研究（论文编号：arXiv:2602.20739v1），提出了一个创新的解决方案：PyVision-RL框架。

上海AI实验室等机构联合突破：让AI视觉模型学会

这个框架的核心思想颇为巧妙：它将Python编程语言转化为AI的“万能工具箱”，让模型能够根据不同的任务需求，自动编写并执行代码来处理图像和视频。其精妙之处在于极致的灵活性。传统方法往往为AI预设一套固定工具，如“放大”、“裁切”、“旋转”。而PyVision-RL不同，它教会了AI编程这门“手艺”，使其能根据具体任务现场创造最合适的处理工具。这就好比不是给工匠一变钱成的工具，而是传授他打造工具的技能，从而应对千变万化的需求。

研究团队据此开发了两个模型：专注于图像理解的PyVision-Image，以及专注于视频理解的PyVision-Video。两者采用统一的训练流程，却在处理方式上各有千秋。

一、图像处理的新突破：让AI学会精细化操作

PyVision-Image的工作模式，宛如一位经验丰富的图片编辑师。接到图像分析任务时，它会先进行全局观察，再逐步深入，展开精细化操作。

这个过程类似医生的诊断流程：先整体观察病患，再根据初步判断决定进行何种检查（如量血压、拍X光），每一步检查的结果都会导向下一步决策。PyVision-Image也是如此，它会基于当前的“观察”结果，动态决定下一步需要执行何种图像处理操作。

例如，面对一张复杂的图表，PyVision-Image可能会先显示全图以获得整体印象，随后发现关键区域，便编写代码将其放大；若觉得颜色对比度不足，它会调整对比度；如需分析数据趋势，它能提取数值并绘制新图表。整个过程全自动，却又充满策略性。

这种方式的优势在于强大的适应性。不同的图像理解任务需要不同的处理策略：有的需像素级精析，有的重整体构图理解，有的则涉及复杂数学计算。传统的固定工具集难以应对这种多样性，而PyVision-Image却能“量体裁衣”，为每个任务定制处理方案。

实际测试结果印证了其有效性。在V*视觉搜索基准测试中，PyVision-Image比基础模型准确率提升了10.2%；在HRBench-4K和HRBench-8K测试中，分别提升了6.5%和6.4%。在AI领域，这样的提升幅度往往意味着显著的技术突破。

更令人印象深刻的是其在数学推理方面的表现。在DynaMath、MathVerse和WeMath等数学视觉理解任务中，它相比之前的最佳模型，准确率分别提高了4.4%、3.1%和9.6%。这表明，AI不仅学会了基础图像处理，更获得了进行复杂视觉数学推理的能力。

二、视频理解的革命性改进：按需构建视觉上下文

视频处理远比图像复杂，其难度堪比阅读整本书与只看一张图片的区别。传统视频AI通常采用均匀抽帧的方式，将等间隔的画面帧输入模型。这就像为了理解小说情节，机械地每隔十页撕下一页来读，势必会错过关键信息，同时掺杂大量无关内容。

PyVision-Video采用了一种革命性的“按需上下文构建”方法。它的工作模式更像一位聪明的研究员：根据具体问题，有针对性地查看视频的相关部分，而非囫囵吞枣。

具体来说，当接到视频分析任务时，PyVision-Video不会一开始就将所有帧加载到内存。相反，它把完整视频保存在后台的Python运行环境中，然后根据任务需求，动态编写代码来抽取和显示相关的视频帧。

例如，若任务是“分析视频后半段演员的行为”，它会聪明地只采样后半部分的关键帧；若是“计算特定动作出现次数”，它会编写代码系统性地遍历视频，定位包含该动作的时间段。这种方法不仅精度更高，还极大节约了计算资源。

其效率优势是压倒性的。PyVision-Video平均每个样本仅使用约5000个视觉token，而传统方法需要约45000个，效率提升了9倍。同时，在VSI-Bench空间推理测试中，其准确率达到44.0%，远超传统Qwen2.5-VL-7B模型的38.0%。这意味着，它用更少的资源，取得了更好的效果。

更重要的是，这种方法解决了视频AI长期面临的核心矛盾：如何在信息完整性与计算效率之间取得平衡。通过按需构建上下文，PyVision-Video在确保获取必要信息的同时，避免了处理海量无关内容。

三、解决AI训练中的“懒惰”问题：创新的强化学习策略

在训练使用工具的AI模型时，“交互崩溃”现象确实令人困扰：模型在训练中会逐渐减少工具使用，最终可能完全放弃多步推理。这好比学生一开始学习认真，逐步分析，后来却倾向于直接猜答案。

问题的根源在于传统强化学习的奖励机制存在缺陷。通常，AI仅在给出正确答案时获得奖励，而使用工具的分析过程本身并无直接回报。长此以往，AI自然学会走捷径。

为此，研究团队设计了一个巧妙的“累积工具奖励”机制。这就像在“答对得分”的基础上，增加了“认真分析过程也加分”的规则。具体而言，当AI正确回答时，不仅因答案正确获赏，还会根据其使用工具的次数获得额外奖励。

这个设计非常精明：奖励仅在答案正确的前提下发放，既鼓励了深入分析，又防止了无意义的工具滥用。好比告诉学生：“只有在答对题的基础上，严谨的推导过程才会加分”，从而兼顾结果正确性与过程价值。

除了奖励机制，团队还开发了一套“过采样-筛选-排序”的训练策略，模拟了优秀教师的因材施教法：首先准备大量练习题（过采样），然后筛选掉那些过于简单或困难、缺乏学习价值的题目，最后根据题目难度与差异度合理排序，优先训练那些能产生明显学习效果的样本组合。

这一策略有效解决了传统强化学习的几个痛点：避免了无效样本浪费算力，减少了正确回应被错误“惩罚”的情况，并确保了训练过程的稳定性。

四、卓越的实验表现：在多项测试中刷新记录

研究团队对PyVision-RL框架进行了全面评估，覆盖视觉搜索、多模态推理、智能推理和空间推理等多个领域。结果显示，该框架在几乎所有任务上都取得了显著提升。

在视觉搜索任务中，PyVision-Image表现尤为突出。在V*基准测试中，准确率达88.7%，较基础模型提升10.2个百分点。在HRBench-4K和HRBench-8K测试中，准确率分别为78.1%和74.3%，各提升6.5和6.4个百分点。

多模态数学推理方面，提升更为明显。在WeMath测试中，准确率达47.7%，比之前最佳模型提升9.6个百分点；在DynaMath和MathVerse测试中，也分别有4.4%和3.1%的提升。

视频处理上，PyVision-Video在VSI-Bench空间推理测试中整体表现达44.0%，较基线提升7.3个百分点。其计算效率的突破性表现前文已述，不再赘言。

训练稳定性的改善同样值得关注。详细分析显示，采用新强化学习策略后，模型的工具使用次数在训练中持续增长，而非传统方法下的逐渐减少。同时，模型准确率、响应长度和工具调用频次均呈稳定上升趋势，表明“交互崩溃”问题已被有效规避。

在不同任务中，PyVision-Image展现了多样化的工具使用策略：在视觉搜索中多用裁剪工具进行精确定位；在数学推理中侧重数值分析工具；在需要智能推理的TIR-Bench测试中，则会组合使用图像分割、标记渲染等更高级的功能。

五、技术细节：巧妙的设计让AI更聪明地学习

PyVision-RL框架的技术设计蕴含多个巧妙创新，它们共同服务于一个核心目标：让AI学会像人类专家一样思考与行动。

系统架构上，团队采用了“思考-行动-反思”的循环机制。AI先进行自然语言推理，分析问题，再生成对应Python代码执行操作，最后根据执行结果继续推理。这使得AI的工作过程透明、可解释。

代码执行环境的设计也颇具匠心。系统为AI提供了一个安全的Python沙盒，AI可在其中自由编写、执行代码来处理视觉数据。执行结果会被封装并反馈给AI，作为下一轮推理的输入。这让AI能够真正“动手”，而非“纸上谈兵”。

模型训练方面，团队对传统GRPO强化学习算法进行了关键改进，移除了标准差归一化项，这一看似简单的修改显著提升了训练稳定性。加之前述的累积工具奖励机制，共同确保了AI在追求正确答案的同时，也乐于使用工具进行深度分析。

数据处理策略体现了团队的深思熟虑。图像任务收集了涵盖多模态推理、医学推理、图表理解等多领域数据；视频任务则专注于空间推理与长视频理解，确保模型能应对复杂视觉场景。

“按需上下文构建”技术的实现细节尤为精彩。处理视频时，系统将完整视频加载到Python环境中，但仅在AI的推理上下文中包含系统提示。AI需通过编写代码来主动采样和显示所需视频帧。这一设计不仅大幅降低了内存占用，更让AI学会了智能的视频分析策略。

六、深度分析：为什么这种方法如此有效

PyVision-RL框架的成功，源于其背后深刻的技术原理与设计哲学。

首先，动态工具使用策略相比静态工具集具有本质优势。传统方法如同给工匠一套固定工具，无论任务如何变化，工具不变。而PyVision-RL教会了AI“制作工具”的能力，能根据具体需求编写处理代码，这种灵活性使其能应对各种未知的视觉挑战。

其次，按需上下文构建技术直击了视频AI的根本难题：信息选择的权衡。全部处理则算力不堪重负，选择性处理又恐遗漏关键。PyVision-Video的解决方案是让AI自己学会判断何时需要何种信息，然后主动获取，这好比培养研究员自主查阅资料的能力，而非直接给他一堆可能无关的材料。

再者，强化学习策略的改进针对了AI训练的核心矛盾：如何平衡结果与过程。传统方法只重答案正确性，易导致“投机取巧”。新的累积奖励机制巧妙地将过程质量纳入评价，体现了对AI学习行为的深刻理解。

最后，过采样-筛选-排序策略的有效性，在于它模拟了“因材施教”的教育原则。确保AI始终在难度适中的任务上学习，从而最大化学习效率。

从更宏观的视角看，PyVision-RL框架标志着AI从“被动感知”向“主动探索”的范式转变。传统的视觉AI是被动的观察者，只能分析给定输入；而PyVision-RL训练出的AI则是主动的探索者，会为完成任务而主动寻找、处理信息。这种主动性，是迈向更高级智能的关键特征。

七、实际应用案例：从理论走向实践

为了更具体地展示PyVision-RL的“动手”能力，研究团队提供了一些生动的应用案例。

在颜色识别任务中，当被问及“哪个圆圈颜色最深”时，PyVision-Image不会做主观猜测。它会先放大图像，接着编写代码提取像素数据，计算各颜色通道的直方图分布，通过量化分析得出客观结论。这便将主观视觉判断转化为了客观数据分析。

在图像旋转校正任务中，面对一张被旋转的图片，PyVision-Image会先分析图像特征，识别可能的旋转角度，然后编写代码尝试不同的旋转修正，最终通过系统性尝试确定正确角度，展现了其假设检验能力。

在视频分析任务中，PyVision-Video的表现同样出色。当需要测量视频中桌子的尺寸时，它会先均匀采样寻找桌子清晰的画面，识别场景中的参照物（如椅子），基于常见家具的标准尺寸建立比例关系，最后通过像素测量和比例换算得出实际尺寸。整个过程逻辑清晰，宛如人类专家的解题思路。

在物体计数任务中，PyVision-Video展现了卓越的时空推理能力。当被问及房间内桌子数量时，它会系统采样不同时间段的帧，识别不同角度和位置的桌子，通过分析外观特征、周围环境及空间位置关系，准确判断哪些是同一张桌子的不同视角，哪些是独立的桌子。

这些案例的共同点在于，AI展现出了类似人类专家的问题解决策略：系统观察、形成假设、验证测试、逻辑推理。这种能力的获得，并非通过简单的模式匹配，而是通过学习如何使用工具进行深度分析。

八、技术突破的深远意义：重塑AI能力边界

PyVision-RL的成功，远不止于在基准测试上刷新高分。它代表了AI能力发展的一个重要转折点，揭示了从“感知AI”向“行动AI”演进的可能路径。

传统视觉AI主攻识别与理解，能告诉你“图片里有什么”，但无法像人类一样对图像进行操作分析。PyVision-RL打破了这一限制，赋予了AI“动手”的能力。这意味着AI可以不再被动接受信息，而是能够主动探索、操作与验证。

在科研领域，这种能力潜力巨大。例如在医学影像分析中，AI不仅能识别病变，还能自动调整参数、标注区域、进行定量测量并生成报告。在材料科学中，AI可分析显微镜图像，自动识别结构特征，进行精确的尺寸测量与缺陷检测。

在教育技术领域，这种会“动手”的AI可成为更佳的教学助手。它不仅能回答关于图表的问题，还能演示分析步骤，展示解决问题的具体逻辑，实现互动性教学。

从技术趋势看，PyVision-RL代表了多模态AI发展的一个重要方向。随着AI系统日益复杂，简单的输入-输出模式已难满足需求。未来的AI需要具备持续交互、动态适应和主动探索的能力，PyVision-RL为此提供了有价值的探索。

更深层次地看，这项研究为解决AI训练中的一些根本性问题提供了新思路。“交互崩溃”现象普遍存在于需要多步推理的任务中。PyVision-RL提出的累积奖励机制与过采样训练策略，或许为解决这类问题提供了一个通用的方法论框架。

九、当前限制与未来展望：从实验室走向现实世界

尽管成果鼓舞人心，但研究团队也坦诚指出了当前方法的局限与未来挑战。

首先是安全性。由于AI能够执行Python代码，这带来了潜在风险，如访问文件系统或网络资源。虽然当前使用了沙盒环境进行限制，但在实际部署中仍需更严格的安全控制机制。

其次是计算资源需求。PyVision-RL的训练过程需要大量算力，特别是在生成、执行和评估大量代码样本时。尽管推理阶段效率很高，但训练阶段的高资源需求可能限制其在资源受限环境中的应用。

再者是泛化能力。当前测试多在标准化学术基准上进行，真实世界的视觉任务更为复杂多样。AI在面对全新任务时是否依然表现出色，尚需进一步验证。

未来的技术改进可能围绕几个方向：一是提高代码生成的质量与效率，减少执行失败；二是开发更智能的工具选择策略，让AI更精准地判断何时使用何种工具；三是探索将动态工具使用能力扩展至音频、文本等其他模态或多模态融合任务。

在应用层面，PyVision-RL技术有望率先在科学研究、工程设计、医学诊断等需要精细视觉分析的专业领域落地。随着技术成熟与安全机制完善，这种会“动手”的AI或将逐步进入更广泛的应用场景。

长远来看，这项研究是迈向更智能、更自主AI系统的重要一步。未来的AI不仅要理解世界，还要能在其中行动。PyVision-RL在视觉领域的成功，为这一宏伟目标提供了宝贵的参考与启发。

归根结底，PyVision-RL的意义超越了性能指标的提升。它展示了一条让AI获得更灵活、更强大能力的可行路径，为构建真正智能的系统积累了关键技术。虽然从实验室到广泛应用仍有距离，但这项研究无疑为AI的未来发展指明了一个充满希望的方向。

Q&A

Q1：PyVision-RL是什么？
A：PyVision-RL是一个让AI视觉模型学会“动手”的训练框架。它使AI不仅能看懂图像和视频，还能通过编写和执行Python代码来主动处理、分析和操作视觉内容，相当于为AI配备了一套可按需创造的万能工具箱。

Q2：PyVision-RL如何解决AI训练中的“懒惰”问题？
A：主要通过两项关键设计：一是“累积工具奖励”机制，AI在给出正确答案后，会因其使用工具进行多步分析而获得额外奖励，从而激励深度推理；二是“过采样-筛选-排序”训练策略，确保AI在难度适中、学习价值高的任务上进行训练，有效避免了传统方法中AI逐渐放弃使用工具的“交互崩溃”现象。

Q3：PyVision-Video的按需上下文构建有什么优势？
A：其核心优势是精准与高效。传统方法机械地均匀抽取视频帧，而PyVision-Video能根据任务需求，智能地、动态地编写代码来抽取最相关的视频片段进行分析。这使得其平均每个样本仅需约5000个视觉token，效率相比传统方法（约45000个token）提升了9倍，同时在分析准确性上也显著更高。

来源:https://www.techwalker.com/2026/0303/3180056.shtml

上一篇：加州伯克利与UIUC联合推出AI语言模型训练工具：轻松掌握扩散语言模型

下一篇：芝商所将推出算力期货市场 AI算力交易迎来新机遇