首页
AI
北大团队突破通用抓取技术,单条演示适配所有灵巧手

北大团队突破通用抓取技术,单条演示适配所有灵巧手

热心网友
转载
2025-10-30

北京大学与BeingBeyond团队联合推出了DemoGrasp框架——一套简洁高效、适用于通用灵巧手抓取任务的学习方案。

在灵巧手通用抓取的研究中,因为动作空间维度复杂、任务涉及长距离探索且需要适应多样化物体,传统强化学习方法常常陷入探索效率低、奖励函数设计复杂等困境。

针对这些挑战,北大与BeingBeyond团队提出了DemoGrasp框架:

一种既简单又高效的灵巧手通用抓取学习方法。

该方法以一次成功的抓取演示轨迹为基础,通过对轨迹中的机器人动作进行智能编辑,灵活适应不同物体与摆放姿态:通过调整腕部位姿来精准确认“抓取位置”,通过微调手指关节角度来优化“抓取方式”。

这一核心创新——将原本多步决策的马可夫过程重构为基于轨迹编辑的“单步MDP”,显著提升了强化学习在抓取任务中的学习效率和真实环境迁移性能。

核心设计:单条演示 + 单步强化学习

从“多步探索”到“全局编辑”

传统强化学习的困境:高维动作空间中复杂的探索难题

动作空间:每一步都需要控制高自由度机器人的所有关节指令。奖励设计:需要设计复杂的密集奖励函数,引导机器人避开碰撞、成功抓取并完成平滑运动。课程学习:需设计复杂的多阶段学习流程,帮助强化学习克服探索瓶颈。

DemoGrasp 的核心创举在于用“单条成功演示轨迹”替代“从零开始的探索”,将高维抓取任务转化为“演示编辑任务”,再通过单步强化学习优化编辑参数,最终结合视觉模仿学习完成虚拟到实机的迁移。

单条演示和轨迹编辑

一条抓取特定物体的成功轨迹,实际上蕴含了抓取任务通用的行为模式(例如“靠近物体→闭合手指→抬起手腕”),只需微调轨迹中的手腕和手指抓取方式,便能适配从未见过的新物体。

DemoGrasp仅需对一个物体(比如一个方块)采集一条成功抓取演示,即可通过物体中心的轨迹编辑,生成针对新物体、新位置的成功抓取策略:

腕部姿态编辑:在物体坐标系下,对原始轨迹中的每一个手腕位置点施加一个统一的变换,灵活调整手腕抓取方向和位置,适应不同大小、形状物体的合适抓取点。手指关节编辑:对手指的抓取关节角度施加一个增量,通过与演示轨迹的等比例插值,生成灵巧手从初始张开状态平滑到达新抓取姿态的动作轨迹。

单步强化学习

在仿真环境中,DemoGrasp利用IsaacGym创建了数千个并行世界,每个世界里都有不同的物体和随机摆放场景。

学习过程:每一个仿真世界中,策略网络根据初始观测(末端姿态和物体点云、位姿)输出一组手腕和手指编辑参数,执行编辑后的轨迹,根据执行过程中是否“抓取成功”和是否“发生碰撞”获得相应奖励。

通过海量试错和在线强化学习,策略学会根据不同的物体观测,输出恰到好处的编辑参数。

训练效率:在这个紧凑动作空间的单步MDP问题上,DemoGrasp使用单张RTX 4090显卡仅需训练24小时即可收敛至超过90%的成功率。

视觉蒸馏,虚实迁移

仿真中的强化学习策略依赖于精确的物体点云和位姿,这在现实中难以获取。DemoGrasp通过视觉模仿学习,将策略蒸馏成与真机对齐的RGB策略,实现从仿真到真机的直接迁移。

数据采集:在仿真中运行强化学习策略,记录下上万条成功轨迹:包括渲染的RGB图像、每一时刻的机器人本体感知和关节角度动作。

模型训练:采用流匹配生成模型的学习方法,学习从图像观测和机器人本体感知预测动作。

为缩小仿真到真机的视觉图像差异,训练还使用了预训练的ViT提取图像特征,并在仿真数据收集时充分地进行了域随机化(随机化光照、背景、物体颜色纹理、相机参数等)。

多模态适配:DemoGrasp适配单目/双目、RGB/深度相机等多种相机观测。

实验表明,双目RGB相机组合的效果最佳,能够更好利用纹理和轮廓等信息成功抓取小而薄的物体。

实验结果:仿真和真机双优,全面提升灵巧抓取的泛化性和扩展性

DexGraspNet是灵巧抓取领域的权威数据集(3.4K+物体)。

DemoGrasp在该数据集上使用Shadow Hand抓取,性能显著优于现有方法:视觉策略成功率高达92%,训练集到测试集的泛化差距仅为1%,且适应大范围物体位置随机化(50cm×50cm)、具备更强空间泛化能力。

跨本体扩展:适配任意灵巧手和机械臂本体

DemoGrasp无需调整任何训练超参数,成功适配6种不同形态的灵巧手(五指、四指灵巧手,三指夹爪和平行夹爪等),在175个物体上训练后,在多个未见过的物体数据集上达到了84.6%的平均成功率。

高性能的虚实迁移

在真实机器人测试中,使用Franka机械臂和因时灵巧手,DemoGrasp成功抓取了110个未见过的物体。

在常规大小物体分类上,DemoGrasp成功率均达到90%以上;

对于扁平物体(手机壳、剪刀等)和小物体(瓶盖、小黄鸭等)这类困难抓取任务,策略能够准确抓取物体、避免碰撞,成功率保持在70%左右。

DemoGrasp框架还展现出对复杂抓取任务的扩展能力,支持在杂乱多物体摆放的场景下实现用语言指令引导抓取,且达到84%的单次抓取成功率。即使面对光照、背景和物体摆放的大幅变化,策略的成功率依然保持稳定。

DemoGrasp开创了融合少量人类演示实现高效机器人强化学习的新路径,将成为未来功能性抓取、工具使用、双手操作等更多灵巧手任务的强大基础。

训练时策略的闭环能力是当前方法的一个局限,后续研究将通过对演示轨迹更细粒度的拆分,增强强化学习策略的实时调整与容错恢复能力。

此外,DemoGrasp可以结合多模态大模型,实现开放场景下的自主抓取智能体。

项目主页:https://beingbeyond.github.io/DemoGrasp/

论文:https://arxiv.org/abs/2509.22149

末日生还者Under AI
末日生还者Under AI

游戏简介末日生还者Under AI是一款末日生存游戏,这款游戏中玩家需要在末日进行生存,而且游戏中提供了自由构建和探索的玩法,玩家可以探

立即下载
来源:https://www.51cto.com/article/828370.html

免责声明

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章

谷歌AI转型实绩:传统业务焕新,为互联网企业带来增长新路径

谷歌母公司Alphabet近日公布了最新季度财报,总营收达1023 46亿美元,同比增长16%,超出华尔街预期超20亿美元。分业务线来看,各板块表现均优于市场预期,摊薄每股收益达2 87美元,盘后股

2025-10-30.

马斯克“硬刚”维基百科:人类知识运营的深层矛盾解析

埃隆·马斯克近期对维基百科发起多轮公开批评,并推出由人工智能驱动的在线百科项目GrokiPedia,引发两大知识平台的隔空交锋。面对科技巨头的挑战,维基百科在最新募捐公告中以独特方式作出回应,强调其

2025-10-30.

黄仁勋、周鸿祎共论AI:是伙伴非工具,推动经济与个体升级

在近期科技界关于人工智能(AI)发展的讨论中,两位科技行业领军人物对AI本质的认知出现了高度契合的观点。英伟达创始人黄仁勋与360集团创始人周鸿祎不约而同地提出,AI不应被简单定义为技术工具,而应被

2025-10-30.

谷歌CEO:全力押注生成式AI,Gemini下载量突破65亿次

在最新公布的季度财报中,科技巨头Alphabet交出了一份亮眼成绩单,公司第三季度营收成功突破千亿美元大关。在随后召开的财报电话会议上,首席执行官桑达尔·皮查伊着重阐述了公司对生成式人工智能的战略布

2025-10-30.

环球音乐与Udio和解:版权纠纷落幕,2026年推AI音乐平台

环球音乐集团(UMG)与人工智能音乐创作平台Udio近日宣布达成一项具有开创性的战略合作协议,这一举措在音乐行业引发广泛关注。此前,双方曾因版权问题陷入法律纠纷,此次合作不仅化解了矛盾,更开启了音乐

2025-10-30.

热门教程

更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程

最新下载

更多
再遇三国手游
再遇三国手游 棋牌策略 2025-10-30更新
查看
三国战争百度
三国战争百度 棋牌策略 2025-10-30更新
查看
校园女生监督会汉化
校园女生监督会汉化 角色扮演 2025-10-30更新
查看
人狼村之谜汉化
人狼村之谜汉化 休闲益智 2025-10-30更新
查看
传说法师手游
传说法师手游 角色扮演 2025-10-30更新
查看
天芒之神
天芒之神 角色扮演 2025-10-30更新
查看
动物军团游戏
动物军团游戏 棋牌策略 2025-10-30更新
查看
仙境传奇打金
仙境传奇打金 角色扮演 2025-10-30更新
查看
口袋盗贼国际
口袋盗贼国际 角色扮演 2025-10-30更新
查看
绝境反击正
绝境反击正 飞行射击 2025-10-30更新
查看