NUS邵林团队T(R,O) Grasp实现5FPS动态灵巧抓取刷新SOTA
灵巧手抓取是机器人实现复杂操作任务的核心技术。近年来,深度学习推动了该领域的快速发展,形成了三大主流技术路线:以机器人为中心、以物体为中心和以交互为中心的方法。
机器人中心方法直接学习从观测数据(如点云、图像)到动作指令的映射。其优势在于推理速度快,但存在样本效率低、泛化能力弱的问题,更换机械手往往需要重新训练模型。
物体中心方法专注于预测物体表面的理想接触点或接触热力图,具有较好的泛化性。然而,该方法需要复杂的后续处理来反推关节运动,且对观测信息的完整性依赖较高,在信息缺失时表现受限。
此前,D (R,O) Grasp 提出了一种交互中心的距离矩阵表征,改善了泛化性与推理效率。但该方法计算开销巨大,且效果严重依赖初始手部姿态的合理性,难以支撑大规模模型构建。
那么,是否存在一种兼具强大表达能力与高效轻量特性的新方法?T (R,O) Grasp 正是为此提出的创新解决方案。

该研究提出使用 T (R,O) 图结构作为灵巧手抓取的统一表征。它将物体与机械手关节的几何拓扑信息编码为图节点,并将其相对位姿关系定义为边。如图1所示,相较于传统的距离矩阵,这种图结构提供了更精巧、高效的交互建模方式。

图 1. T (R,O) 图结构与扩散过程
目前,该论文已被机器人领域顶级会议 IEEE International Conference on Robotics & Automation(ICRA 2026)接收。
二、方法:T (R,O) 图的构建与应用

图 2. T (R,O) Grasp 整体框架
给定物体点云与不同机械手的URDF配置文件,T (R,O) Grasp 旨在输出多样且稳定的抓取姿态,并适配多种灵巧手。如图2所示,其工作流程分为三个核心步骤。
2.1 构建 T (R,O) 图结构

图 3. T (R,O) 图结构的构建
此步骤核心是建模物体与机械手间的交互关系。如图3所示:首先,通过预训练的VQ-VAE模型将物体点云编码为一个物体节点。其次,结合机械手关节的几何特征(BPS)与位姿信息,构建一系列关节节点。最后,利用物体节点与关节节点之间、以及关节节点彼此间的相对位姿关系来定义图的边,从而形成一个蕴含丰富空间与拓扑信息的交互图。
2.2 训练图扩散网络并预测关节位姿
获得T (R,O)图后,模型在标准的DDIM(去噪扩散隐式模型)框架下进行训练,对关节位姿执行加噪与去噪过程。其中的去噪器(Denoiser)由多层Transformer构成,具体架构见图4。

图 4. T (R,O) Denoiser 网络架构
得益于DDIM推理时对引导条件的良好支持,T (R,O) Grasp 训练完成后能够灵活生成满足多种约束的抓取姿态。例如,可指定抓取方向或限定物体的特定抓取区域,模型均能生成对应方案。
2.3 通过逆运动学求解最终指令
模型预测输出的是抓取时各关节的位姿矩阵。为获得机械臂可执行的动作指令,需进行最后一步:逆运动学求解。研究利用 Pyroki 工具包高效求解此问题,从而将预测位姿转化为具体的关节角度指令。

三、实验结果:性能与效率的双重验证
研究团队系统评估了 T (R,O) Grasp 在自由生成(无条件)与带约束生成(如指定方向或区域)两种模式下的性能。评估指标涵盖抓取成功率、生成姿态多样性及关键的推理速度。

图 5. T (R,O) Grasp 与 baseline 性能对比
从图5到图8的对比结果清晰表明,无论在无约束还是多种约束条件下,T (R,O) Grasp 的性能均超越现有基线方法。它展现了跨不同灵巧手生成既精准又多样化抓取姿态的强大能力。

图 6. T (R,O) Grasp 在无条件设置下的灵巧抓取

图 7. T (R,O) Grasp 在给定抓取方向下的灵巧抓取

图 8. T (R,O) Grasp 在给定抓取区域下的灵巧抓取
在效率方面表现同样出色。在 NVIDIA 40GB A100 GPU 上,该方法实现了平均5 FPS的推理速度,意味着每秒可处理多个抓取规划任务。这为在动态场景中实现实时、闭环的抓取控制奠定了坚实基础。
仿真成功需真机验证。研究团队将算法部署到 xArm 机械臂平台,并在 XHand 和 LEAP Hand 两款灵巧手上进行了测试。

图 9. T (R,O) Grasp 在 XHand 与 LEAP Hand 上的真实机器人抓取
真实实验结果表明,T (R,O) Grasp 在XHand和LEAP Hand上分别取得了91.0%和90.0%的抓取成功率。更具挑战的是动态环境测试:在运行中的传送带上,算法依然能完成稳定抓取(图10)。这充分验证了其在动态场景下实现闭环抓取的实用潜力与鲁棒性。

图 10. T (R,O) Grasp 在传送带动态环境的真实机器人抓取
总结而言,T (R,O) Grasp 通过引入新颖的图结构表征,在保持强大表达能力的同时,显著提升了灵巧抓取规划的效率和泛化能力。该方法不仅在多项指标上刷新了跨智能体灵巧抓取的纪录,其高达5 FPS的推理速度与在动态场景中的成功演示,都标志着该技术向实际应用迈出了关键一步。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
大模型训练合成数据生成的十大实用策略
合成数据,这个曾经被视为“辅助工具”的技术选项,如今正快速演进为驱动大模型开发与迭代的核心基础设施。对于任何致力于长期模型训练、优化和持续升级的团队而言,构建高质量的合成数据能力已成为一项战略性任务。 背后的驱动力非常现实:获取大规模、高质量的训练数据始终是AI团队面临的主要瓶颈。数据或许存在,但面
Claude代码能力更新引争议思考深度下降难处理复杂工程
近期,AI编程工具Claude Code的性能表现引发了开发者社区的广泛关注与深度讨论。一份在官方仓库引发热议的Issue直指核心问题:这款曾被寄予厚望的AI编程助手,在经历特定更新后,其处理复杂工程任务的能力似乎出现了显著退化。 核心指控聚焦于一次关键更新:据称,该更新导致模型的内部推理深度骤降约
SentiAvatar革新3D数字人动作生成技术
与3D数字人互动时,你是否曾感到一丝难以言喻的“不自然”?它的嘴唇在同步发音,表情却略显呆板;手臂虽有动作,却与对话内容缺乏关联。更常见的是,那些外观高度拟真但动作僵硬、节奏失调的数字人,很容易将用户体验带入“恐怖谷”效应。 问题的核心在于,人类的高效沟通从来不是单一维度的信息传递。一个细微的耸肩足
Claude Code内置工具与技能完整清单揭秘
在上一篇文章中,我们深入剖析了Claude Code的System Prompt架构与提示词工程。今天,我们把目光转向它的“能力体系”——一个由40多个内置工具、5个专用Agent以及一套完整的斜杠命令构成的强大工具箱。所有洞察,均源自对源码的深度分析。 一、工具全景:40+ 个内置工具 Claud
匹兹堡大学新作实现一句话生成逼真3D场景
视觉语言大模型(VLM)在描述图像内容时往往头头是道,可一旦面对三维空间推理,短板就暴露无遗。物体一多,视角一换,模型的认知底线很容易被击穿。 更棘手的是,想精准评估这种能力也困难重重。真实世界的数据集采集成本高昂,且难以灵活调整参数;而程序生成的3D场景又常常显得虚假、违背物理规律。业界一直缺少一
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

