北大团队突破通用抓取技术,单条演示适配所有灵巧手
北京大学与BeingBeyond团队联合推出了DemoGrasp框架——一套简洁高效、适用于通用灵巧手抓取任务的学习方案。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
在灵巧手通用抓取的研究中,因为动作空间维度复杂、任务涉及长距离探索且需要适应多样化物体,传统强化学习方法常常陷入探索效率低、奖励函数设计复杂等困境。
针对这些挑战,北大与BeingBeyond团队提出了DemoGrasp框架:
一种既简单又高效的灵巧手通用抓取学习方法。

该方法以一次成功的抓取演示轨迹为基础,通过对轨迹中的机器人动作进行智能编辑,灵活适应不同物体与摆放姿态:通过调整腕部位姿来精准确认“抓取位置”,通过微调手指关节角度来优化“抓取方式”。
这一核心创新——将原本多步决策的马可夫过程重构为基于轨迹编辑的“单步MDP”,显著提升了强化学习在抓取任务中的学习效率和真实环境迁移性能。

核心设计:单条演示 + 单步强化学习
从“多步探索”到“全局编辑”
传统强化学习的困境:高维动作空间中复杂的探索难题
动作空间:每一步都需要控制高自由度机器人的所有关节指令。奖励设计:需要设计复杂的密集奖励函数,引导机器人避开碰撞、成功抓取并完成平滑运动。课程学习:需设计复杂的多阶段学习流程,帮助强化学习克服探索瓶颈。
DemoGrasp 的核心创举在于用“单条成功演示轨迹”替代“从零开始的探索”,将高维抓取任务转化为“演示编辑任务”,再通过单步强化学习优化编辑参数,最终结合视觉模仿学习完成虚拟到实机的迁移。

单条演示和轨迹编辑
一条抓取特定物体的成功轨迹,实际上蕴含了抓取任务通用的行为模式(例如“靠近物体→闭合手指→抬起手腕”),只需微调轨迹中的手腕和手指抓取方式,便能适配从未见过的新物体。
DemoGrasp仅需对一个物体(比如一个方块)采集一条成功抓取演示,即可通过物体中心的轨迹编辑,生成针对新物体、新位置的成功抓取策略:
腕部姿态编辑:在物体坐标系下,对原始轨迹中的每一个手腕位置点施加一个统一的变换,灵活调整手腕抓取方向和位置,适应不同大小、形状物体的合适抓取点。手指关节编辑:对手指的抓取关节角度施加一个增量,通过与演示轨迹的等比例插值,生成灵巧手从初始张开状态平滑到达新抓取姿态的动作轨迹。
单步强化学习
在仿真环境中,DemoGrasp利用IsaacGym创建了数千个并行世界,每个世界里都有不同的物体和随机摆放场景。
学习过程:每一个仿真世界中,策略网络根据初始观测(末端姿态和物体点云、位姿)输出一组手腕和手指编辑参数,执行编辑后的轨迹,根据执行过程中是否“抓取成功”和是否“发生碰撞”获得相应奖励。
通过海量试错和在线强化学习,策略学会根据不同的物体观测,输出恰到好处的编辑参数。
训练效率:在这个紧凑动作空间的单步MDP问题上,DemoGrasp使用单张RTX 4090显卡仅需训练24小时即可收敛至超过90%的成功率。
视觉蒸馏,虚实迁移
仿真中的强化学习策略依赖于精确的物体点云和位姿,这在现实中难以获取。DemoGrasp通过视觉模仿学习,将策略蒸馏成与真机对齐的RGB策略,实现从仿真到真机的直接迁移。
数据采集:在仿真中运行强化学习策略,记录下上万条成功轨迹:包括渲染的RGB图像、每一时刻的机器人本体感知和关节角度动作。
模型训练:采用流匹配生成模型的学习方法,学习从图像观测和机器人本体感知预测动作。
为缩小仿真到真机的视觉图像差异,训练还使用了预训练的ViT提取图像特征,并在仿真数据收集时充分地进行了域随机化(随机化光照、背景、物体颜色纹理、相机参数等)。
多模态适配:DemoGrasp适配单目/双目、RGB/深度相机等多种相机观测。
实验表明,双目RGB相机组合的效果最佳,能够更好利用纹理和轮廓等信息成功抓取小而薄的物体。
实验结果:仿真和真机双优,全面提升灵巧抓取的泛化性和扩展性
DexGraspNet是灵巧抓取领域的权威数据集(3.4K+物体)。
DemoGrasp在该数据集上使用Shadow Hand抓取,性能显著优于现有方法:视觉策略成功率高达92%,训练集到测试集的泛化差距仅为1%,且适应大范围物体位置随机化(50cm×50cm)、具备更强空间泛化能力。

跨本体扩展:适配任意灵巧手和机械臂本体

DemoGrasp无需调整任何训练超参数,成功适配6种不同形态的灵巧手(五指、四指灵巧手,三指夹爪和平行夹爪等),在175个物体上训练后,在多个未见过的物体数据集上达到了84.6%的平均成功率。
高性能的虚实迁移
在真实机器人测试中,使用Franka机械臂和因时灵巧手,DemoGrasp成功抓取了110个未见过的物体。
在常规大小物体分类上,DemoGrasp成功率均达到90%以上;
对于扁平物体(手机壳、剪刀等)和小物体(瓶盖、小黄鸭等)这类困难抓取任务,策略能够准确抓取物体、避免碰撞,成功率保持在70%左右。

DemoGrasp框架还展现出对复杂抓取任务的扩展能力,支持在杂乱多物体摆放的场景下实现用语言指令引导抓取,且达到84%的单次抓取成功率。即使面对光照、背景和物体摆放的大幅变化,策略的成功率依然保持稳定。

DemoGrasp开创了融合少量人类演示实现高效机器人强化学习的新路径,将成为未来功能性抓取、工具使用、双手操作等更多灵巧手任务的强大基础。
训练时策略的闭环能力是当前方法的一个局限,后续研究将通过对演示轨迹更细粒度的拆分,增强强化学习策略的实时调整与容错恢复能力。
此外,DemoGrasp可以结合多模态大模型,实现开放场景下的自主抓取智能体。
项目主页:https://beingbeyond.github.io/DemoGrasp/
论文:https://arxiv.org/abs/2509.22149
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
工信部发布防范 OpenClaw(“龙虾”)开源智能体安全风险“六要六不要”建议
工信部发布“六要六不要”,为OpenClaw(“龙虾”)开源智能体安全风险划出红线 近日,工业和信息化部网络安全威胁和漏洞信息共享平台发布了一份重磅文件,针对当前热门的OpenClaw(因其图标酷似龙虾,业内常昵称为“龙虾”)开源智能体,提出了清晰的安全使用指引——“六要六不要”。这份建议可不是空穴
荣耀 CEO 李健:荣耀机器人全栈自研,将聚焦消费市场
荣耀CEO李健详解机器人战略:全栈自研,聚焦三大核心消费场景 荣耀春季旗舰新品发布会圆满结束后,关于公司未来发展的蓝图更加清晰。在随后的媒体沟通会上,荣耀CEO李健不仅公布了年度销售目标,更首次系统性地阐述了荣耀在机器人领域的完整战略规划与市场布局。 在探讨机器人业务发展方向时,李健明确了荣耀的坚定
别只盯着“上门装龙虾赚26万”!看懂OpenClaw背后的“意图入口”大战
别再只关注“上门装龙虾赚26万”!深度解读OpenClaw背后的“意图入口”新战争 最近科技行业的热潮,充满了戏剧性的现实色彩。一只“红色龙虾”AI智能体搅动了整个市场:有人通过提供安装服务,收取每次五百元,短短几天就赚取二十六万元收入;腾讯大厦前甚至排起长队,大家竞相领取免费的安装体验权限。这场全
openclaw安装配置
一、系统要求 在开始安装 OpenClaw 之前,请务必确认您的计算机满足以下最低配置要求。这如同搭建房屋前检查地基,是确保后续安装流程顺利、软件稳定运行的前提。更高的硬件配置将为复杂任务处理和流畅体验提供有力保障。 操作系统:支持 Windows 10 及以上版本、macOS 最新稳定版,以及主流
自研第一个SKILL-openclaw入门
自研第一个SKILL:手把手教你开发openclaw自定义技能 当你成功构建好openclaw之后,如何让它真正“智能”起来?关键在于为其开发SKILL——这些技能是openclaw的“内功心法”,决定了它能帮你做什么、做多好。 本文将带你亲自动手,从零开始开发你的第一个openclaw自定义技能,
- 日榜
- 周榜
- 月榜
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程

