北京大学Imagine2Act机器人框架:先想象再动手解决精细家务难题
来源:微信公众号“北京大学前沿计算研究中心”
原文链接:https://mp.weixin.qq.com/s/IudCZqnBIPFIXtqGwk6Q2Q
论文地址:https://arxiv.org/abs/2509.17125
你是否期待机器人能帮你完成插花、叠放杯子、将盘子精准放入碗架这类精细家务?这些对人类而言简单的动作,对机器人来说却是巨大的挑战。它不仅需要理解“把花插入花瓶”的语义指令,还必须精确控制末端执行器,以毫米级的精度对准瓶口。这正是当前家庭服务机器人面临的核心技术瓶颈:关系性物体重排任务。
近期,北京大学董豪团队的一项突破性研究为此带来了全新解决方案。他们提出的Imagine2Act框架,创新性地让机器人学会“先想象目标场景,再执行精准动作”,在仿真与真实机器人实验中均展现出卓越的操作精度。这项重要成果已被机器人领域顶级国际会议ICRA 2026接收。
研究背景:关系性物体重排的挑战
关系性物体重排任务要求机器人根据特定语义关系摆放物体,例如“将笔插入笔筒”、“将餐盘放入碗架”。此类任务的核心难点在于,机器人不仅需要理解高层语义,还必须满足极其严格的几何空间约束。例如,盘子必须垂直对准碗架狭窄的卡槽,笔尖需精确对准笔筒开口,其容错空间往往仅有几毫米。
现有主流方法在此类任务上遭遇显著瓶颈。传统的3D模仿学习方法直接从RGB-D图像映射到动作,缺乏对物体间复杂几何关系的显式推理能力,学到的约束是隐式的,导致在高精度对齐任务中性能极不稳定。另一些方法尝试利用生成模型先“想象”出目标场景布局,为策略提供先验。然而,这些方法要么直接将生成的物体变换作为动作执行,导致生成噪声在动作序列中累积放大;要么仅将生成结果作为策略的松散辅助输入,未能建立动作与几何约束之间的强关联,最终效果大打折扣。
为此,Imagine2Act框架应运而生。其核心目标明确:将物体的语义几何约束,扎实、显式地融入到机器人策略的学习过程中,通过生成高质量的“想象目标”来引导和约束动作生成,最终实现毫米级精度的可靠操作。
核心方法:想象与执行的双重对齐

如上图所示,Imagine2Act的架构清晰分为两大核心模块:语义几何约束生成模块,以及物体-动作一致性学习模块。整个流程可概括为:在执行前生成一个与真实场景几何对齐的“想象目标点云”,并在策略训练中通过创新的监督机制,确保机器人的动作轨迹与想象中的物体变换保持一致。

上图详细展示了Imagine2Act两大核心模块的协同工作流程。
语义几何约束生成模块:构建对齐现实的想象目标
该模块的核心任务是根据自然语言指令(如“把杯子叠上去”),生成一个既符合语义关系、又与当前真实场景在几何上精确对齐的3D目标点云。整个过程分为三步,环环相扣:
第一步是视角一致的图像编辑。利用如GPT-Image等强大的视觉生成模型,输入机器人初始观测的场景图像和语言指令,生成一张任务完成后的目标场景图像。关键之处在于,生成图像必须严格保持与初始观测完全一致的相机视角,这为后续的3D几何对齐奠定了坚实基础。
第二步是前景物体的点云重建。为了最大限度减少生成过程引入的噪声,本研究采用了一个巧妙的策略:仅改变与任务相关的物体,而保持场景背景不变。具体而言,首先使用分割模型(如Grounded-SAM)从生成图像中精确分割出前景物体(即需要移动的物体及其关联的锚定物体),随后利用3D重建模型(如TripoSR)为这些前景物体生成对应的3D点云。这些点云编码了任务所要求的精确几何约束。
第三步是几何对齐与场景拼接。从机器人的初始观测中,精确估计出锚定物体(如花瓶、碗架)在真实世界中的6D姿态。随后,将上一步生成的前景物体点云,依据此姿态和合适的比例,“安装”到世界坐标系中。背景点云则直接从初始观测中提取并保持不变。最终拼接得到的,就是一个既蕴含任务语义布局,又与真实环境严丝合缝的“想象目标点云”。
获得这个高质量的点云后,可将其投影为RGB图像和深度图像,从而像处理普通观测数据一样提取视觉特征,作为策略网络额外的、富含几何先验的输入信号。
物体-动作一致性学习模块:实现动作与变换的软对齐
有了想象的目标点云,便可计算出可移动物体从初始位姿到目标位姿所需的刚体变换(旋转与平移)。一个直观的想法是:末端执行器直接操纵物体,其运动轨迹理应与物体的这个变换高度相似。但直接使用生成的变换作为动作监督存在陷阱——生成过程中任何微小的误差都会被直接传递并放大,导致动作失败。
Imagine2Act的创新在于设计了一套“双重对齐”机制,在利用强引导信号的同时,宽容地处理生成噪声:
一是编码变换Token。计算运动物体从初始状态到想象目标状态的旋转和平移变换,将其编码成一个紧凑的变换Token。这个Token与视觉特征、语言指令、历史状态等Token一同输入给动作生成模块,为预测动作提供了一个明确、可学习的物体运动先验。
二是软姿态一致性损失。设计了一个带自适应阈值的损失函数,它并非强制要求预测动作与物体变换完全一致,而是仅在两者偏差超过预设容忍度时才施加惩罚。该损失分别计算预测的末端执行器旋转与物体旋转之间的测地距离,以及平移之间的欧氏距离,并利用Sigmoid函数实现平滑的惩罚过渡。这种“软监督”方式,既充分利用了物体变换这一强引导信号来规范动作的大致方向,又容忍了生成过程中不可避免的噪声和微小偏差,有效防止了误差在动作序列中滚雪球式累积。
实验验证:仿真与真机表现卓越
为全面评估Imagine2Act的性能,研究团队在标准仿真环境RLBench和真实的机器人平台上进行了系统测试。任务设计紧密围绕家庭日常精细操作,并设置了包括3D Diffuser Actor、Imagine Policy在内的多个前沿基线模型进行对比。
仿真实验:高精度攻克家庭物体重排挑战
在RLBench仿真环境中,团队选取了Put-Knife(放刀)、Stack-Wine(叠酒杯)、Place-Cups(放置杯子)等7个具有挑战性的关系性重排任务。每个策略仅使用100条演示数据进行训练,并进行25轮测试评估。对比基线涵盖了基于3D场景表示的扩散策略、生成目标点云直接执行的策略以及基于点云Transformer的先进方法。

实验结果非常突出。Imagine2Act在全部7个任务上的平均成功率高达0.79,显著优于所有基线模型。相较于3D Diffuser Actor,它通过引入显式的语义几何约束,大幅提升了机器人的空间推理精度;而与Imagine Policy相比,其物体-动作对齐机制有效阻断了生成噪声的直接传播,保证了动作的可靠性。
通过系统的消融实验,每个模块的贡献得到验证。完整模型(使用想象点云、变换Token和软损失)取得了0.79的成功率。当移除整个想象模块时,性能下降至0.67,凸显了语义几何先验的重要性。仅使用想象目标(而非真实目标)的配置取得了0.72的成功率,与使用真实目标状态的0.74非常接近,这证明了生成模块具有很高的质量。单独添加变换Token或软损失均能带来性能提升,且两者结合效果最佳,证实了双重对齐机制设计的有效性。
为测试框架的泛化能力,团队还在RLBench上额外评估了5个铰链物体操作任务(如关闭盒子、关闭抽屉)。Imagine2Act在这些任务上取得了与先进基线相当的性能,展示了其对不同任务类型的良好适应性。
真实世界实验:在噪声环境中稳定运行

仿真表现优异,真机实战如何?如上图所示,研究团队在Franka Emika真实机器人平台上部署了Imagine2Act,执行叠杯子、关罐子、插花、放盘子等6个日常操作任务。
在充满光照变化、传感器噪声和物理不确定性的真实家庭模拟环境中,Imagine2Act取得了平均0.68的成功率,远高于3D Diffuser Actor基线0.43的成功率。这一结果强有力地证明,该框架不仅能够解决仿真任务,更能稳健地迁移到复杂的现实世界,具备实际部署应用的巨大潜力。
总结与未来展望
Imagine2Act的核心贡献在于,为机器人高精度操作引入了一套“先想象目标,再规划动作”的认知与执行闭环。通过生成与真实场景几何对齐的想象目标,它为机器人策略提供了丰富的语义与几何先验,弥补了传统方法在显式空间推理上的不足。更重要的是,其创新的物体-动作一致性学习机制,通过双重对齐在利用生成目标强大引导作用的同时,巧妙地规避了生成模型的误差累积问题,直击高精度机器人操作的核心痛点。
该框架在仿真和真实世界的多种家庭服务任务中均表现优异,为解决关系性物体重排这一机器人操作难题提供了一个可解释、可泛化的新范式。展望未来,进一步优化想象目标生成的效率与精度,并将该框架拓展至更多样、更复杂的家庭与服务机器人场景,将是接下来的研究重点。让机器人更精准、更智能地协助人类处理日常事务,距离其真正融入寻常百姓家,无疑又迈进了坚实的一步。
此项研究由北京大学前沿计算研究中心董豪副教授团队主导完成。该实验室长期专注于机器人视觉感知、灵巧物体操作、语义导航及具身智能决策等前沿方向,致力于为家庭服务、商业零售及工业制造等领域研发高性能、高性价比的智能机器人解决方案。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
比亚迪宋Ultra DM-i上市12.99万 承诺城市领航安全兜底
2025年5月28日,比亚迪王朝网全新力作——宋Ultra DM-i正式推向市场,共推出5款配置车型,官方售价区间为12 99万至15 99万元。此次定价策略极具突破性:一款拥有310公里纯电续航能力的中型插电混动SUV,直接下探至13万元级别市场。作为王朝网络的新旗舰,该车明确瞄准高频出行需求场景
王传福宣布比亚迪天神之眼L3/L4首搭超千线激光雷达
5月28日晚,比亚迪在深圳举行了一场备受瞩目的智能化战略发布会。董事长王传福登台后,明确提出了一个关键判断:高等级自动驾驶已从“遥不可及”正式进入“指日可待”的新阶段。这一表态分量十足,因为其背后是比亚迪在智能驾驶领域的最新战略布局。据王传福透露,比亚迪天神之眼自动驾驶版(即L3 L4级别方案)将首
红米K90 Max线下上手体验与真实评价
红米K90 Max终于正式亮相,对于期待已久的米粉而言,第一时间亲自上手体验这款新机,感受它在性能、设计与体验上的全面进化,无疑令人兴奋不已。 不过话说回来,当前手机市场的成本压力摆在那里。一款产品若想在性价比上做到极致,往往需要在某些方面做出取舍,很难面面俱到地堆砌配置。这几乎已成为行业内的普遍共
嫌5000元iPhone Air贵?乞丐版iPhone体验惊喜
在商业层面上,iPhone Air算不上成功的商品,但在极客玩家里头倒是颇受欢迎。就拿雷科技编辑部来说,几乎人手一部。 大家喜欢这款手机,说到底还是因为它极致轻薄,在如今同质化严重的手机市场里,这种差异性总能带来点新鲜感。当然,它的短板也很明显,所以大都是当作备用机来用。 最近几年,主力机一直用安卓
王传福称比亚迪累计建成闪充站超6100座 成国内自建充电站最多车企
5月28日,比亚迪在深圳举办的智能化战略发布会上,董事长王传福亲自宣布,比亚迪已成为中国自建充电站数量最多的车企。截至5月27日,累计建成闪充站已突破6100座,这一成绩在新能源车企中展现出强劲实力。 回顾时间线,今年3月5日,比亚迪正式发布了第二代刀片电池与闪充技术,同步启动了名为“闪充中国”的大
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

