北大团队突破通用抓取技术,单条演示适配所有灵巧手

北京大学与BeingBeyond团队联合推出了DemoGrasp框架——一套简洁高效、适用于通用灵巧手抓取任务的学习方案。
在灵巧手通用抓取的研究中,因为动作空间维度复杂、任务涉及长距离探索且需要适应多样化物体,传统强化学习方法常常陷入探索效率低、奖励函数设计复杂等困境。
针对这些挑战,北大与BeingBeyond团队提出了DemoGrasp框架:
一种既简单又高效的灵巧手通用抓取学习方法。

该方法以一次成功的抓取演示轨迹为基础,通过对轨迹中的机器人动作进行智能编辑,灵活适应不同物体与摆放姿态:通过调整腕部位姿来精准确认“抓取位置”,通过微调手指关节角度来优化“抓取方式”。
这一核心创新——将原本多步决策的马可夫过程重构为基于轨迹编辑的“单步MDP”,显著提升了强化学习在抓取任务中的学习效率和真实环境迁移性能。

核心设计:单条演示 + 单步强化学习
从“多步探索”到“全局编辑”
传统强化学习的困境:高维动作空间中复杂的探索难题
动作空间:每一步都需要控制高自由度机器人的所有关节指令。奖励设计:需要设计复杂的密集奖励函数,引导机器人避开碰撞、成功抓取并完成平滑运动。课程学习:需设计复杂的多阶段学习流程,帮助强化学习克服探索瓶颈。
DemoGrasp 的核心创举在于用“单条成功演示轨迹”替代“从零开始的探索”,将高维抓取任务转化为“演示编辑任务”,再通过单步强化学习优化编辑参数,最终结合视觉模仿学习完成虚拟到实机的迁移。

单条演示和轨迹编辑
一条抓取特定物体的成功轨迹,实际上蕴含了抓取任务通用的行为模式(例如“靠近物体→闭合手指→抬起手腕”),只需微调轨迹中的手腕和手指抓取方式,便能适配从未见过的新物体。
DemoGrasp仅需对一个物体(比如一个方块)采集一条成功抓取演示,即可通过物体中心的轨迹编辑,生成针对新物体、新位置的成功抓取策略:
腕部姿态编辑:在物体坐标系下,对原始轨迹中的每一个手腕位置点施加一个统一的变换,灵活调整手腕抓取方向和位置,适应不同大小、形状物体的合适抓取点。手指关节编辑:对手指的抓取关节角度施加一个增量,通过与演示轨迹的等比例插值,生成灵巧手从初始张开状态平滑到达新抓取姿态的动作轨迹。
单步强化学习
在仿真环境中,DemoGrasp利用IsaacGym创建了数千个并行世界,每个世界里都有不同的物体和随机摆放场景。
学习过程:每一个仿真世界中,策略网络根据初始观测(末端姿态和物体点云、位姿)输出一组手腕和手指编辑参数,执行编辑后的轨迹,根据执行过程中是否“抓取成功”和是否“发生碰撞”获得相应奖励。
通过海量试错和在线强化学习,策略学会根据不同的物体观测,输出恰到好处的编辑参数。
训练效率:在这个紧凑动作空间的单步MDP问题上,DemoGrasp使用单张RTX 4090显卡仅需训练24小时即可收敛至超过90%的成功率。
视觉蒸馏,虚实迁移
仿真中的强化学习策略依赖于精确的物体点云和位姿,这在现实中难以获取。DemoGrasp通过视觉模仿学习,将策略蒸馏成与真机对齐的RGB策略,实现从仿真到真机的直接迁移。
数据采集:在仿真中运行强化学习策略,记录下上万条成功轨迹:包括渲染的RGB图像、每一时刻的机器人本体感知和关节角度动作。
模型训练:采用流匹配生成模型的学习方法,学习从图像观测和机器人本体感知预测动作。
为缩小仿真到真机的视觉图像差异,训练还使用了预训练的ViT提取图像特征,并在仿真数据收集时充分地进行了域随机化(随机化光照、背景、物体颜色纹理、相机参数等)。
多模态适配:DemoGrasp适配单目/双目、RGB/深度相机等多种相机观测。
实验表明,双目RGB相机组合的效果最佳,能够更好利用纹理和轮廓等信息成功抓取小而薄的物体。
实验结果:仿真和真机双优,全面提升灵巧抓取的泛化性和扩展性
DexGraspNet是灵巧抓取领域的权威数据集(3.4K+物体)。
DemoGrasp在该数据集上使用Shadow Hand抓取,性能显著优于现有方法:视觉策略成功率高达92%,训练集到测试集的泛化差距仅为1%,且适应大范围物体位置随机化(50cm×50cm)、具备更强空间泛化能力。

跨本体扩展:适配任意灵巧手和机械臂本体

DemoGrasp无需调整任何训练超参数,成功适配6种不同形态的灵巧手(五指、四指灵巧手,三指夹爪和平行夹爪等),在175个物体上训练后,在多个未见过的物体数据集上达到了84.6%的平均成功率。
高性能的虚实迁移
在真实机器人测试中,使用Franka机械臂和因时灵巧手,DemoGrasp成功抓取了110个未见过的物体。
在常规大小物体分类上,DemoGrasp成功率均达到90%以上;
对于扁平物体(手机壳、剪刀等)和小物体(瓶盖、小黄鸭等)这类困难抓取任务,策略能够准确抓取物体、避免碰撞,成功率保持在70%左右。

DemoGrasp框架还展现出对复杂抓取任务的扩展能力,支持在杂乱多物体摆放的场景下实现用语言指令引导抓取,且达到84%的单次抓取成功率。即使面对光照、背景和物体摆放的大幅变化,策略的成功率依然保持稳定。

DemoGrasp开创了融合少量人类演示实现高效机器人强化学习的新路径,将成为未来功能性抓取、工具使用、双手操作等更多灵巧手任务的强大基础。
训练时策略的闭环能力是当前方法的一个局限,后续研究将通过对演示轨迹更细粒度的拆分,增强强化学习策略的实时调整与容错恢复能力。
此外,DemoGrasp可以结合多模态大模型,实现开放场景下的自主抓取智能体。
项目主页:https://beingbeyond.github.io/DemoGrasp/
论文:https://arxiv.org/abs/2509.22149
免责声明
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
谷歌AI转型实绩:传统业务焕新,为互联网企业带来增长新路径
谷歌母公司Alphabet近日公布了最新季度财报,总营收达1023 46亿美元,同比增长16%,超出华尔街预期超20亿美元。分业务线来看,各板块表现均优于市场预期,摊薄每股收益达2 87美元,盘后股
马斯克“硬刚”维基百科:人类知识运营的深层矛盾解析
埃隆·马斯克近期对维基百科发起多轮公开批评,并推出由人工智能驱动的在线百科项目GrokiPedia,引发两大知识平台的隔空交锋。面对科技巨头的挑战,维基百科在最新募捐公告中以独特方式作出回应,强调其
黄仁勋、周鸿祎共论AI:是伙伴非工具,推动经济与个体升级
在近期科技界关于人工智能(AI)发展的讨论中,两位科技行业领军人物对AI本质的认知出现了高度契合的观点。英伟达创始人黄仁勋与360集团创始人周鸿祎不约而同地提出,AI不应被简单定义为技术工具,而应被
谷歌CEO:全力押注生成式AI,Gemini下载量突破65亿次
在最新公布的季度财报中,科技巨头Alphabet交出了一份亮眼成绩单,公司第三季度营收成功突破千亿美元大关。在随后召开的财报电话会议上,首席执行官桑达尔·皮查伊着重阐述了公司对生成式人工智能的战略布
环球音乐与Udio和解:版权纠纷落幕,2026年推AI音乐平台
环球音乐集团(UMG)与人工智能音乐创作平台Udio近日宣布达成一项具有开创性的战略合作协议,这一举措在音乐行业引发广泛关注。此前,双方曾因版权问题陷入法律纠纷,此次合作不仅化解了矛盾,更开启了音乐
相关攻略
热门教程
更多- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程








