上海交大团队：机器人如何从“看客”进阶为“评委”

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

科技数码

上海交大团队：机器人如何从“看客”进阶为“评委”

热心网友时间：2026-03-26

转载

这项由上海交通大学、东北大学、厦门大学马来西亚分校、香港大学、香港中文大学和星火AI联合完成的研究发表于2026年3月16日，论文编号为arXiv:2603 15600v1，为机器人领域带来了一项突

这项由上海交通大学、东北大学、厦门大学马来西亚分校、香港大学、香港中文大学和星火AI联合完成的研究发表于2026年3月16日，论文编号为arXiv:2603.15600v1，为机器人领域带来了一项突破性进展。

想象一下这样的场景：你正在观看一个朋友做菜，你不仅能看出他正在切菜、炒菜，还能准确判断这道菜完成了百分之多少。这听起来很简单，但对机器人来说却是个巨大的挑战。长期以来，机器人就像是个"看热闹"的观众，能描述眼前发生的事情，却难以准确判断任务的进展程度。

这个问题远比想象中重要。在工厂里，机器人需要知道装配线上的产品完成度；在家庭中，扫地机器人需要判断清洁任务进行到什么程度；在医疗环境中，手术机器人需要实时评估手术进展。但现有的视频理解模型就像一个只会描述但不会评价的解说员，它们能告诉你"机器人正在移动物体"，却无法准确判断"这个搬运任务完成了70%"。

研究团队发现了问题的核心所在：现有的视频多模态大语言模型主要通过监督学习训练，它们更像是"被动的观察者"，习惯于描述和识别，但缺乏主动评判和推理的能力。就好比一个从未下过厨的人，虽然能认出锅碗瓢盆，甚至能描述厨师的动作，但要让他判断一道菜的完成度，就显得力不从心了。

为了解决这个难题，研究团队开发了一个名为PRIMO R1的7B参数框架。这个名字代表"过程推理诱导监控"（Process Reasoning Induced MOnitoring），其核心思想是将机器人从"被动观察者"转变为"主动评判者"。

PRIMO R1的创新在于采用了强化学习方法，让模型学会生成明确的思维链条。这就像训练一个学生不仅要给出答案，还要详细说明解题思路。模型需要经历三个思考阶段：规划阶段分析任务目标和步骤，观察阶段记录具体的动作变化，推理阶段综合分析并给出进度判断。

更巧妙的是，PRIMO R1采用了一种独特的"时间锚定"策略。传统模型只看视频流，就像只看电影中间片段却不知道开头和结尾。而PRIMO R1同时考虑初始状态图像、过程视频和当前状态图像，这样就能清晰地看到任务从哪里开始，经历了什么过程，现在到了什么程度。这种设计让模型对任务进展有了更准确的感知。

为了验证效果，研究团队构建了PRIMO数据集和基准测试。这个数据集涵盖了从高保真度仿真环境到真实人形机器人的多种场景，包括BEHAVIOR、AgiBot、RoboTwin等仿真平台，以及由来福机器人公司的KUAVO-MY全尺寸人形机器人在真实环境中收集的数据。

实验结果令人印象深刻。在任务进度估计方面，PRIMO R1的平均相对准确度达到82.90%，平均绝对误差仅为15.52%。更重要的是，尽管PRIMO R1只有7B参数，但它的表现超过了72B参数的大型通用模型，准确度提升了9.10个百分点。这就像一个经过专门训练的年轻厨师，在判断菜品完成度方面，竟然比经验丰富但缺乏专门训练的老师傅还要准确。

特别值得关注的是PRIMO R1在"从仿真到现实"转换中的表现。许多模型在仿真环境中表现良好，但一到真实环境就"水土不服"。而PRIMO R1在真实人形机器人环境中仍能保持72.32%的准确度，显示出强大的泛化能力。这种鲁棒性源于其内在的推理机制，而不是简单的模式匹配。

研究还发现了一个有趣的现象：训练模型进行连续的进度推理，竟然意外地提升了它在离散故障检测任务上的表现。在RoboFail基准测试中，PRIMO R1达到了67.0%的准确度，甚至超过了OpenAI的o1模型（61.0%）和GPT-4o（63.0%）。这说明连续进度评估和离散故障检测在某种程度上是相互关联的能力。

在具体的推理过程中，PRIMO R1展现出了类人的思考模式。以"折叠短裤"任务为例，模型首先制定计划：收集下摆、向上折叠、收集上摆、向下折叠、调整整齐。然后在观察阶段，它详细记录机械臂的动作和短裤状态的变化。最后在推理阶段，它发现底部已经成功折叠但顶部尚未完成，因此判断任务完成了约50%。整个过程逻辑清晰，就像一个有经验的人在思考一样。

这种推理能力的提升主要得益于研究团队设计的群体相对策略优化（GRPO）训练方法。与传统的监督学习不同，这种方法让模型在多次尝试中学会自我纠正和改进。模型会同时生成多个答案，然后通过比较这些答案的质量来学习哪种推理路径更有效。这就像让学生做同一道题的多种解法，然后通过比较来找出最佳方案。

研究团队还特别关注了推理链的长度和推理效率之间的平衡。PRIMO R1平均生成359个词的推理过程，推理时间约0.62秒，在保证准确性的同时也满足了实时应用的需求。相比之下，一些模型虽然生成了更长的推理链（比如Cosmos-Reasoning生成1109个词），但准确度反而更低，说明推理的质量比数量更重要。

在不同环境的测试中，PRIMO R1都表现出了一致的优势。无论是在AgiBot的室内环境、BEHAVIOR的复杂任务、RoboTwin的双手操作，还是在真实人形机器人的工厂和服务场景中，模型都能准确评估任务进度。这种跨环境的稳定性对实际应用至关重要。

值得一提的是，研究团队还进行了详细的消融实验，验证了设计选择的合理性。他们发现，同时使用初始状态、过程视频和当前状态这三种输入是必要的。仅使用其中一种或两种输入都会导致性能显著下降。这证实了"时间锚定"策略的有效性。

对于普通人来说，这项研究的意义远超技术本身。随着家庭机器人、服务机器人和工业机器人的普及，我们需要能够理解和评估任务进展的智能系统。PRIMO R1为这一目标提供了重要的技术基础，让机器人不再是盲目的执行者，而是能够思考和判断的智能助手。

从技术发展的角度看，这项研究开辟了一个新的研究方向：如何让AI系统具备类人的过程监督能力。这不仅对机器人领域有重要影响，对自动驾驶、医疗AI、教育AI等领域也有借鉴意义。任何需要理解过程和评估进展的应用场景，都可能从这种方法中受益。

说到底，PRIMO R1的成功在于找到了一种让机器"学会思考"的方法。它不仅能看到发生了什么，还能理解这意味着什么，这标志着AI从感知向认知的重要跨越。这种能力的提升，将为未来的智能机器人开启无数可能，让它们真正成为我们生活和工作中可靠的智能伙伴。

Q&A

Q1：PRIMO R1是如何让机器人学会判断任务进度的？

A：PRIMO R1采用了强化学习方法训练机器人生成明确的思维链条，包括规划、观察和推理三个阶段。同时它使用"时间锚定"策略，同时分析初始状态、过程视频和当前状态，就像人类判断任务进度时会对比开始和现在的状态一样。

Q2：PRIMO R1在实际应用中表现如何？

A：PRIMO R1在多个测试环境中都表现优秀，平均准确度达到82.90%，比72B参数的大型模型还要准确。更重要的是，它在真实人形机器人环境中仍能保持72.32%的准确度，显示出强大的实用性。

Q3：这项技术对普通人的生活会有什么影响？

A：随着家庭机器人和服务机器人的普及，这项技术能让机器人更好地理解和完成日常任务，比如清洁、整理、烹饪等。机器人将能够准确判断任务完成情况，提供更智能、更可靠的服务。