浙大AI机器人能否像人一样找准角度拍出同款照片

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

科技数码

浙大AI机器人能否像人一样找准角度拍出同款照片

热心网友时间：2026-06-07

转载

这项研究成果来自浙江大学人工智能研究团队，以预印本形式于2026年5月31日发布，论文编号为arXiv:2606.01247。首先分享一个核心判断：有一项你每天都能轻松完成的任务，AI目前根本无法做到。

想象一下——朋友给你发来一张照片，你也想从相同角度拍摄一张。你会怎么做？通常，你会先仔细观察照片中的家具、窗户和光线，然后移动几步，向左或向右转身，蹲下或抬头，不断调整自身位置，直到眼前的场景与照片大致重合，最后按下快门。

这一系列动作对人类而言轻而易举，甚至近乎本能。但对于目前最先进的AI系统来说，这却是一座几乎无法翻越的高山。浙江大学团队将这个问题定义为“目标视角复现”（Target View Replication，简称TVR），并为此专门构建了一套测试与训练体系——TvRBench——用于评估AI在此类任务上的能力，并探索如何提升它。

一、为什么精准复现视角如此困难？

我们在“寻找角度”的过程中，其实同时在完成多项任务：将眼前的画面与目标照片进行比较，判断自己是应该前进还是后退、向左还是向右、抬头还是低头；随后用身体动作来缩小差距；同时还要记住自己走过的路线，以免原地打转；最后在恰当时机喊停：“够了，就是这里”。

现有AI研究在“图像理解”和“空间关系推理”方面已取得不少进展，例如让AI回答“椅子在桌子的左边还是右边”。但这些研究大多是被动的——照片已经提供，AI只需看图回答问题，无需自主移动，更不需要主动寻找合适视角。

这就像让一位厨师评论一道菜的味道，与让他从头开始做出一道菜，完全是两回事。浙江大学团队意识到，真正有用的空间智能不是“看图说话”，而是能够主动行动、主动探索、主动调整，最终在三维空间中重现一个指定视角。

二、TVRBench：这个“考场”是如何设计的？

为了严格检验AI的表现，研究团队搭建了一套名为TVRBench的室内仿真测试平台。整个测试在一个虚拟室内环境中进行，AI扮演一个能够移动和旋转头的机器人，目标是通过自主行动，使自己看到的画面与给定的目标照片完全一致。位置、朝向和头部角度都必须精确匹配，才算任务成功。

该平台的设计颇为用心，覆盖了两种不同规模的场景：一种是单房间场景，来源于AI2-THOR仿真平台，包含厨房、客厅、卧室、卫生间共120个场景；另一种是多房间场景，来源于ProcTHOR-10k仿真平台，每个场景有两到三个实体墙隔开的房间，共120个场景。

测试任务按难度分为四个类别：单房间简单、单房间困难、多房间简单、多房间困难。简单任务的目标照片中至少包含9个可识别物体（如沙发、灯、桌子），它们就像路标，帮助AI判断自身位置与方向；困难任务则只有3到6个物体，路标稀少，导航自然更加费力。行走距离也有区分：单房间任务需要2到8步，多房间任务则需要10到20步，这意味着AI必须穿越走廊甚至多个房间才能抵达目标。整个测试集共有500道题，每类125道。

AI共有九种可选动作：向前、向后、向左、向右各移动0.25米；向左或向右旋转45度；抬头或低头30度；以及“停止”——宣告已到达目标位置。每次行动后，AI只能看到当前的第一人称视角照片，没有地图，不知道自己的精确坐标，更不清楚目标点所在。只有当AI发出“停止”指令且位置完全正确时，任务才算成功。

三、现有AI的表现：一份令人沮丧的成绩单

研究团队测试了多个当前顶尖AI模型。开源模型包括Qwen3.5-9B、Qwen3.5-27B、Qwen3.6-27B，以及两个混合专家架构模型Qwen3.5-35B-A3B和Qwen3.6-35B-A3B；闭源商业模型包括GPT-4o、GPT-5，以及谷歌的Gemini-3.1-Pro。同时，团队还邀请了5位真人参与者完成其中100道题，作为人类基准。

结果令人震惊：在500道测试题中，表现最好的开源模型（Qwen3.5-27B）仅有7.8%的成功率；表现最好的闭源模型（Gemini-3.1-Pro）也只有12%；而人类参与者的成功率高达93%。换句话说，AI完成这项任务的能力，大约只有人类的八分之一甚至更低。

更有趣的是，将模型的参数量从90亿扩大到270亿，成功率仅从2.8%提升到7.8%，提升幅度极其有限。即便是顶级商业模型GPT-5，也仅达到8%的成功率。这表明单纯“扩大模型规模”并不能解决这个根本性问题。

研究团队特别观察到了两种典型的失败模式：第一种是“原地打转”——AI不停地左转右转，却几乎不移动，整个任务过程中实际到达的不同位置平均只有3.5个，但总行动步数却高达34.3步，其中83%的步骤都是在重复已经去过的地方。第二种是“胡乱调整”——AI不停抬头低头，在同一个地方反复调整头部角度，却毫无进展。统计全部行动，旋转类动作占了50.8%，而真正的身体平移动作只占26.1%，“停止”动作更是仅占可怜的0.1%。

团队还完成了一个关键的控制实验：如果将任务简化为只需原地转头、不需要走动，同样的Qwen3.5-9B模型，成功率从2.8%一跃升至80.5%；反之，如果只允许走动、不允许转头，成功率则停留在10%。这一对比清晰地揭示出：AI真正的瓶颈不是“看不出两张照片的区别”，而是“发现了区别却不知道该如何走过去”。

四、记忆方式也至关重要

研究团队还测试了两种不同“记忆方式”对AI表现的影响。第一种称为“仅动作记忆”——AI每一步只能看到当前画面、目标照片，以及过去几步所做的动作的文字描述，例如“第5步：向前走，第6步：向右转”。第二种称为“视觉-动作记忆”——AI可以同时看到过去每一步的实际画面，完整的视觉历史都保留在上下文中。

实验结果显示，对于未经训练的模型，仅动作记忆反而比视觉-动作记忆表现更好，平均提升约3.8个百分点。这听起来有些反直觉，但原因其实很清晰：这些模型没有经过专门训练，一旦塞入大量历史画面，反而会被视觉信息干扰，不知道该关注哪里；而只提供动作列表，虽然信息更少，但至少不会“被图片淹没”。这揭示了另一个重要瓶颈：现有模型缺乏有效利用多轮视觉历史的能力。

五、训练能否改变局面？——后训练框架的探索

既然现有AI在此任务上表现如此糟糕，是否有方法通过专门训练来提升能力？研究团队以Qwen3.5-9B为基础模型，设计了一套包含四种训练方法的综合框架。

1. 专家示范学习（SFT，监督微调）

团队首先利用一个具备“上帝视角”的规则程序，在模拟环境中自动生成1600条最优行走路径——该程序知晓地图和目标坐标，能规划出最短路线。随后将这些示范路径“喂”给AI，让它通过模仿来学习“该怎样走”。这好比教一个孩子开车，不是让他自己摸索，而是先让教练演示标准驾驶动作，再让他反复练习。在使用视觉-动作记忆的条件下，这种方法将Qwen3.5-9B的成功率从2.8%大幅提升至50.8%，提升效果相当显著。

2. 加入推理过程的示范学习（CoT-SFT，思维链监督微调）

在上述示范路径的基础上，团队额外借助MiMo-V2.5模型为每一步动作生成一段“理由”，例如“当前画面中桌子在右侧，目标照片中桌子在正前方，因此应该向右转”。理论上，带有推理过程的示范应能帮助AI“知其然也知其所以然”。但结果出乎意料：加入推理过程反而降低了成功率。使用仅动作记忆时，成功率从44.2%下降到24.8%；使用视觉-动作记忆时，从50.8%下降到35.6%。这表明，至少在当前的标注方案下，这种文字推理的监督并不能有效帮助AI完成需要连续行动的导航任务，甚至会干扰其学习有效的动作模式。

3. 单步强化学习（Single-turn GRPO）

这种方法不再训练整个行走过程，而是将每一步单独拿出来训练：向AI展示当前画面和目标照片，询问它“这一步该做什么”，然后根据其回答是否与专家答案一致来给予奖励或惩罚。该方法在单步预测的准确率上达到72%，但在真实的连续任务测试中，成功率却从44.2%大幅下降至26.2%。这一反差揭示了一个深刻道理：在实验室里每道题单独答对，与在真实场景中连续做出30个决策而不出错，完全是两种不同的能力。就好比一个学生单独做每道选择题能答对70%，但在真正的考试中却因前面答错一道题，导致后续判断全部连锁出错。

4. 多轮强化学习（Multi-turn GRPO）

这种方法让AI在真实的模拟环境中实际行走，每走完一整条路径才进行一次总体评分——奖励信号不仅看最终是否到达目标，还包括整个过程中是否逐步接近目标、有无无效的原地打转、是否在错误位置提前喊停等。这就好比跑马拉松，不是只看最终成绩，而是全程都有教练在旁边实时指导。这种方法在视觉-动作记忆的基础上，将成功率从50.8%进一步提升了到51.4%。整体提升幅度虽然不大，但提升颇具意义：多房间简单任务的成功率从27.2%提升至34.4%，多房间困难任务从24.8%提升至25.6%，这些正是之前示范学习表现最薄弱的场景。

六、训练背后的细节：数据是如何准备的？

为了让读者对整个过程有更全面的了解，有必要看看数据的分割方式。研究团队将240个场景按1:2:3的比例分为三个互不重叠的池子：最小的用于示范学习（SFT池），其次用于最终测试（评估池），最大的用于强化学习（RL池）。这样的划分确保了测试时使用的场景在训练阶段从未被AI见过，真正检验的是泛化能力，而非记忆能力。

示范学习共生成1600条轨迹，每条轨迹包含三个阶段：首先调整头部朝向，使视角方向与目标一致；然后使用最短路径算法规划地面行走路线；最后喊停。规划路线使用的是经典的Dijkstra最短路算法，每条示范轨迹都是动作数量最少的最优路径。

对于强化学习部分，多轮强化学习使用了4800条任务（来自120个RL场景，每个场景40条任务），每次训练时AI会在同一个任务上生成8条不同的轨迹，然后通过比较这8条轨迹的好坏来判断哪种走法更值得强化。奖励信号由四部分组成：每走一步扣除一小点奖励以鼓励效率；每次发出的动作格式正确给予小奖励、格式错误则扣分；只有当AI靠近目标的距离超过了历史最近距离时才给予进步奖励（回头走老路不算进步）；以及在正确位置喊停给予高额奖励、在错误位置喊停则受到惩罚。

七、人类是如何进行测试的？

为了建立公平的人类基准，研究团队邀请了5位志愿者，每人完成100道题，四个类别各25道。他们通过一个网页界面操作：左边显示当前的第一人称视角画面，右边显示目标照片，使用键盘上的W/S/A/D键控制前后左右移动，Q/E键控制左右旋转，R/F键控制抬头低头，空格键宣告完成。整个测试的图像分辨率、动作选项、步数上限和成功判定标准与AI测试完全相同，因此两者的数据可以直接比较。

八、为什么思维链（CoT）未能提供帮助？

这个发现值得单独解释——因为在许多其他AI任务中，让模型先“想清楚再说”，即生成推理过程，通常能显著提升表现。然而在TVR任务上，效果却适得其反。

研究团队认为，问题可能出在推理过程的标注方式上。每个推理步骤的文字描述由MiMo-V2.5模型生成，它被要求为每一步专家动作提供一个1到3句话的理由。但这种“事后解释”的推理，与AI在连续行动中真正需要的空间规划能力，可能并非同一回事。更重要的是，TVR任务的每条轨迹长达30到40步，如果每一步都附带一段推理文字，整个上下文会变得极其冗长，反而让模型在处理时更容易混乱。值得注意的是，团队也坦承，是否存在更适合TVR任务的CoT监督方式，目前仍是一个悬而未决的问题。

九、为何强化学习需要在“真实”环境中训练才有效？

单步强化学习的失败，恰好反衬出多轮强化学习的价值所在：一个每步单独训练的模型，仅学会了“在专家演示的场景下该如何做”，从未学习过“如果前面走错了，接下来该如何纠正”。而在真实环境中反复尝试、反复犯错、反复获得奖励信号的多轮训练，让模型有机会接触到各种“非最优状态”，并在这些状态下学会如何恢复和前进。

从另一个角度也能看出这一点：研究团队还进行了一个实验，直接用未经示范学习的原始模型进行多轮强化学习，结果成功率从0%提升到了26.2%——虽然远不如先做示范学习再做强化学习（51.4%），但至少能从零开始自己摸索出一套可行策略。而单步强化学习从原始模型出发，最终只能达到3.6%。

十、这项研究意味着什么？

归根结底，这项研究揭示了当前AI空间智能的一个核心短板：能“看懂”空间，不代表能“行动于”空间。现有的大模型在静态空间理解题目上已表现出色，但一旦需要将这种理解转化为连续的身体行动，就会出现严重的能力断层。

研究团队通过TVRBench这套测试体系，清晰地将这个断层量化了出来。更重要的是，通过对比四种训练方法，他们找到了目前最有效的提升路径：利用视觉-动作历史进行示范学习奠定基础（成功率从2.8%升至50.8%），再通过在真实环境中的多轮强化学习在最薄弱的多房间场景上进一步精调（总体成功率提升至51.4%）。

当然，团队也坦诚地指出了这项工作的局限性：整个测试发生在虚拟仿真环境中，采用离散的位置网格和严格的精确匹配判定标准，这与现实世界中模糊、连续、容错的导航场景仍有相当大的距离。所有后训练结论也仅在Qwen3.5-9B这一个模型上得到验证，是否适用于其他模型家族、其他规模以及其他主动感知任务，还需进一步研究。

从更长远的视角来看，这个任务的意义远不止于“拍摄同款照片”。能够精准复现指定视角的AI，可应用于室内导航机器人、无人机摄影、虚拟现实体验、远程手术辅助等诸多场景。研究团队已将TVRBench的代码、数据集和训练好的模型全部开源，供更多研究者在此基础上继续探索。

对于AI能否真正获得类人的空间行动智能，这或许只是一个开始。

Q&A

Q1：TVRBench测试的具体任务是什么？为何不直接使用现有的图像导航测试？

A：TVRBench测试的是“目标视角复现”任务，即让AI在三维室内环境中主动行走和转动头部，直到自己看到的画面与给定的目标照片完全一致——位置、朝向、头部角度都必须精确吻合才算成功。现有图像导航任务（如ImageNav）只要求AI到达目标区域附近，不要求最终视角与目标照片匹配，测试的能力有本质区别。TVRBench专注于视角的精确复现，而非粗略的位置接近。

Q2：为什么给AI加入推理过程（思维链）反而降低了成功率？

A：在本研究中，添加推理过程会使训练数据中每一步都附带一段文字说明，导致整条轨迹（30到40步）的上下文变得极度冗长，模型容易被大量文字信息干扰，偏离核心的动作学习。更关键的是，这些推理文字是由另一个模型“事后补充”的解释，与连续行动中真正所需的空间规划能力存在差距，无法有效指导模型学习实际的导航决策。

Q3：多轮强化学习为何比单步强化学习效果更好？原因是什么？

A：单步强化学习每次只训练一个孤立的动作决策，模型仅在专家示范过的场景状态下学习，从未接触“走错了该如何应对”的情况，导致在真实连续任务中一旦出现偏差就无法恢复，错误会不断累积。多轮强化学习则让AI在真实环境中完整地走完整条路径，能够接触到各种非最优的中间状态，并通过整条轨迹的综合奖励信号学会如何纠错和恢复，因此更适合这类需要多步决策的主动感知任务。

来源:https://www.163.com/dy/article/KUP5OGM10511DTVV.html

上一篇：韩国顶级AI为何在韩语网络搜索中频频翻车

下一篇：新加坡科研机构开发AI大模型调光开关按需调节