面包屑图标 当前位置: 首页
AI资讯
热点详情

分钟人类第一人称视频零样本教会机器人双臂操作|马里兰大学HumanEgo

AI热点日报
AI热点日报时间:2026-07-05
热点解读

马里兰大学提出HumanEgo框架,仅用30分钟人类第一人称视频即可零样本教会机器人双臂操作。该方法将人手与物体交互转化为形态无关的交互中心表征,结合flowmatching策略,无需机器人数据或微调即可部署。在四项真实双手任务上达92 5%成功率,并零样本迁移至多种机器人、相机与环境。

以往需要30天的机器人遥操作工作,如今只需佩戴一副智能眼镜就能轻松完成。当机器人的数据接口从实验室环境迁移到日常生活场景,制约其规模化扩展的瓶颈便不再仅仅是数据量的问题——数据接口本身才是决定性的关键因素。

30分钟人类第一人称视频,零样本教会机器人双臂操作|马里兰大学提出HumanEgo

HumanEgo的整体框架:人类佩戴Aria眼镜采集第一人称视频(左侧),经过处理转化为交互中心表征,再训练流匹配策略(中间),最终无需任何微调即可部署到不同机器人上——对环境、相机和机器人本体均无限制(右侧)。

视觉-语言大模型在过去几年取得的巨大成功,本质上得益于一个廉价且可无限扩展的数据接口——互联网。任何人撰写博客或拍摄照片,都在为下一代大模型贡献宝贵的数据资源。

然而,机器人学习领域一直缺乏这样的高效数据接口。目前最先进的操控策略仍然依赖于机器人遥操作数据:专业操作员通过控制器远程操纵机器人,一遍遍地演示抓取和放置动作。这种方式成本高昂、效率低下,必须在设备齐全的实验室中进行,而且数据与机器人硬件高度耦合——更换一台机器人或一个工作站,之前采集的数据几乎无法复用。

近一年来,学术界开始尝试利用人类第一人称视频作为机器人训练的数据来源。从EgoMimic、EgoZero到AINA,不同研究团队都在探索这条技术路线。不过,现有的工作大致沿着两个方向推进:要么使用人类视频与机器人数据进行协同训练,要么先在数千小时的视频上进行大规模预训练——这两种方法都未能完全摆脱对机器人数据的依赖。因此,一个自然的问题随之产生:一名普通人,只需佩戴一副智能眼镜、拍摄几分钟视频,能否直接训练出一个可供部署的机器人策略?

马里兰大学团队提出的全新框架HumanEgo,给出了肯定的答案:

仅需30分钟的人类第一人称视频,无需任何机器人数据、无需针对机器人的后训练、也无需互联网级别的预训练,就能在4个真实世界的双手协作任务中实现92.5%的成功率,并且能够零样本迁移到不同的机器人、相机和场景中。

值得一提的是,HumanEgo一经公开便引发了社区的广泛关注:X(推特)上相关讨论帖的浏览量已接近10万,开源代码在短短数日内获得了230多个GitHub星标,不少研究者表示希望复现这套从人类视频中学习的流程。

  • 论文标题:HumanEgo: Zero-Shot Robot Learning from Minutes of Human Egocentric Videos
  • 作者团队:Zhi (Leo) Wang, Botao He, Kelin Yu, Seungjae Lee, Ruohan Gao, Furong Huang, Yiannis Aloimonos(马里兰大学)
  • 论文链接:https://arxiv.org/abs/2605.24934
  • 项目主页:https://humanego-ai.github.io
  • 代码仓库:https://github.com/TX-Leo/HumanEgo
  • 完整视频:https://www.youtube.com/watch?v=pdL46diijuY

为什么“人类视频”这么难直接拿来用?

让普通人佩戴Meta Aria这类智能眼镜,可以在厨房、车间或办公室等场所采集到携带6-DoF头部轨迹和3D手部关键点的高质量视频。但是,用人类视频直接训练机器人,面临着两大难题:

其一,跨形态的表征鸿沟。人手与机器人夹爪在视觉外观运动学上存在根本性差异:人手有21个关节且容易自遮挡;机器人夹爪则是金属材质的平行开合结构。直接利用人手视频训练出的策略,部署到机器人上必然失效。

其二,极少数据下的学习难题。30分钟的视频大约只包含60条轨迹记录,在这个数据量级下,主流的模仿学习方法(如ACT、Diffusion Policy)极易出现过拟合问题,更不用说泛化到从未见过的场景了。

数据采集:戴一副Aria Gen1眼镜,在任意环境完成演示,每条演示只需几秒,无需标定或专用工作站。

核心思路:把表征建立在“交互”上,而不是“身体”上

HumanEgo的核心洞察可以概括为一句话:机器人不应模仿人的身体,而应恢复任务相关的“手-物交互几何”。

团队将场景中的每只手和每个物体都视为一个实体,并为每个实体计算一个29维的交互中心Token,以编码实体在参考系下的6D位姿、左右手相对于该实体的位姿以及抓取状态。

系统架构:视觉端通过抠除人臂 + 渲染虚拟夹爪消除外观差异;空间端用ICT序列编码实体间关系;flow matching策略配合三个密集辅助目标,从分钟级人类数据学出双手机器人动作。

这个表征具备三个关键特性:

实体相对——每个token描述的是“手相对于物体如何靠近、抓取、运输”,这正是操作任务的本质信号;

形态无关——人手经过简单重定向,被抽象成“虚拟双指夹爪”,无论是人手还是Trossen、UR5、Franka等机器人夹爪,都能生成相同的token;

变长接口——场景中有几个物体就生成几个token,天然适配不同任务的需求。

手到夹爪:人手21个关键点被重定向为一个SE(3)虚拟夹爪 + 1维开合状态。

在物体一侧,团队利用Grounding DINO与SAM2进行检测和分割,CoTracker3跨帧追踪关键点并三角化到3D空间,再通过Orient-Anything估计物体朝向。抓取时物体常被手遮挡,HumanEgo引入了运动学锁定——从抓取那一刻起,将物体位姿刚性绑定到手上,确保遮挡期间表征依然保持稳定和连续。所有这些数据都来自现成的感知模型,无需任何人工标注。

在视觉端,HumanEgo使用SAM2与LaMa抠除人手和人臂,再将虚拟夹爪和物体关键点渲染回原图,得到“看起来已经像机器人在操作”的本体无关观测——通过轻量级渲染绕开了昂贵的域适应或图像翻译过程。

策略采用流匹配(flow matching)(比扩散模型更快,比ACT更具表达力),并叠加了三个密集辅助目标:物体运动预测、2D轨迹回归、以及潜在一致性。这些目标在3D物理、2D视觉和潜在空间三个互补的维度上预测场景的变化,使得每条演示不再只产生一个动作监督信号,而是挖掘出四种密集信息——这正是低数据量下实现高效学习的关键所在。

实验:92.5%成功率,比遥操作高41%

团队在4个真实世界的双手协作任务上进行了系统评估,分别考验抓取放置、长程多步、接触密集双手协同、以及持续旋转控制——其中,拆叠杯子要求三步动作实现零误差累积,浇花任务则需要两臂严格遵守时序配合。

Serve Bread:从任意位置抓起面包,平稳放到盘子中央。

Downstack Cups:长程多步任务——推倒、抓取、重新堆叠三个嵌套杯子,任何一步出错都会导致累积性失败。

Water Flowers:接触密集双手协同——一臂举喷头,一臂开阀门,严格时序配合。

Adjust Table:握住摇把连续旋转三整圈,全程不能松手。

每个任务执行40次试验,对比了5个零样本基线(EgoZero、PointPolicy、ZeroMimic、Track2Act、SPOT)以及匹配时长的ACT遥操作基线。结果如下:

HumanEgo-30在四个任务上全面领先;仅用15分钟数据的HumanEgo-15,其表现已经超过了使用30分钟机器人数据训练的ACT。

  • 92.5%平均成功率(基于30分钟人类视频,涵盖四个任务);
  • 仅15分钟人类数据即可达到75%,已超过30分钟遥操作的51%;
  • 比匹配时长的ACT遥操作高出41%
  • 8分钟人类视频(57.5%)即超越了30分钟机器人数据(52.5%)——实现了3.75倍的数据效率

五个零样本基线只能捕捉操作的局部侧面,在需要精确手-物推理的任务上集体表现不佳(最高不超过45%),HumanEgo是唯一在四个任务上都保持高成功率的方法。

数据效率曲线:人类数据曲线全程高于机器人遥操作,8分钟即反超30分钟遥操作。

更关键的发现来自消融实验。团队对比五种表征配置后发现:纯视觉方法的天花板仅为32.5%,无论怎样进行抠图或渲染;而一旦加入ICT,成功率直接跃升至85%(提升了52.5个百分点),完整模型更是达到了95%。显式的交互中心空间表征,才是实现跨形态迁移的真正核心。

表征消融:纯视觉天花板32.5%,加入ICT后跃升至85%;三个辅助目标进一步带来增益。

一个策略,零样本适配多种机器人、相机与环境

将单一的HumanEgo策略直接部署到9种分布外条件(包括不同机器人、相机、光照以及物体)下,成功率全部稳定在85%至95%之间,无需任何重新训练或微调。

零样本跨条件泛化:跨本体、跨相机、跨环境均保持85-95%成功率。

跨本体:同一策略零样本部署到不同机器人手臂。

跨环境:更换背景、光照、干扰物,策略依然稳定。

跨设置:更换相机、视角、桌面高度,策略零样本适配。

不止四个任务:更多真实世界能力

除了四个主要任务外,HumanEgo同样能够学会一系列日常操作,所有这些都来自分钟级的人类视频:

给设备充电。

拧开瓶盖。

开门。

开柜子。

抽取纸巾。

写在最后:当数据接口从实验室搬到日常

HumanEgo表面上是一项技术工作,但它真正想传达的是一个更宏观的判断:机器人学习的瓶颈,并非“数据太少”,而是“数据接口与机器人硬件绑死”。

当可穿戴的第一人称视频成为新的数据接口,机器人数据的收集便从“实验室里的稀缺资源”转变成了“人人均可参与、可以自主设计的工作流”:任何人都能贡献数据,采集可以在真实世界的任意角落进行,同一份数据也能跨多个机器人复用。团队同时指出了下一步发展方向——将这套范式扩展至多指灵巧操作、长程工业流程,以及从大规模人类视频中持续学习。正如论文结尾所写:有了正确的表征和学习目标,人类第一人称视频可以成为机器人学习的通用数据接口。

HumanEgo完整演示视频(约1分30秒):一镜看完数据采集、方法原理与真实机器人执行。

关于团队

HumanEgo由马里兰大学研究团队完成,作者包括Zhi (Leo) Wang、Botao He、Kelin Yu、Seungjae Lee、Ruohan Gao、Furong Huang、Yiannis Aloimonos。

一作王治是马里兰大学的研究者,其研究方向聚焦于面向机器人学习的可扩展数据接口——如何让人类经验通过可穿戴感知实现规模化,从而为下一代通用操作策略提供支持,涵盖跨形态学习与从人类视频中高效学习等方向。HumanEgo正是这一研究思路的集中体现。

导师Yiannis Aloimonos是马里兰大学计算机系教授、UMIACS计算机视觉实验室主任,作为主动视觉与认知机器人领域的奠基性学者之一,长期致力于视觉、行动与语言交汇点的研究,旨在让机器人像人类一样在与世界的交互中持续学习。

热点追踪提示词
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:分钟人类第一人称视频零样本教会机器人双臂操作|马里兰大学HumanEgo要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
来源:https://www.jiqizhixin.com/api/article_library/articles/2026-06-13
机器人

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关热点
AI热点2026-07-05 18:11
MemeCam AI驱动的Meme生成器

你随手拍下一张照片,或者从相册中挑选一张图片,AI就能自动识别画面中的内容,并随即生成一句恰到好处的meme文案——这就是 MemeCam 正在实现的创意功能。它由 GPT-4o 驱动,目标非常明确:让 meme 创作变得轻松、有趣、且零门槛,人人都能成为段子手。 什么是MemeCam? MemeC

AI热点2026-07-05 18:11
AI驱动Seeing Dogs助视障人士探索世界

先说一个很有意思的应用——Seeing Dogs。它本质上是一款专门为视障人士打造的iPhone和iPad工具,但背后的逻辑其实很值得关注:用AI来“翻译”视觉信息,把周围的世界变得可听、可感。这个方向其实并不算新鲜,但能做到像Seeing Dogs这样把场景描述、物体识别、街道标志读取甚至菜单导航

AI热点2026-07-05 18:10
Cargoship无需机器学习知识即可为你的软件添加AI

今天我们来聊一聊名为Cargoship的产品。它的核心功能其实非常直接——为开发者提供经过预训练的AI模型,只需通过API调用即可使用。关键在于,你完全无需掌握机器学习知识,甚至不必了解模型背后的训练细节。这个工具能够直接帮助你跨越技术门槛。 目标用户群体 Cargoship精准定位了这样一类用户:

AI热点2026-07-05 18:10
Unitor.ai个人AI助手,满足您的个性化需求

想象一下,有一个人工智能助手,它不仅能记住您上次聊到的内容,还能根据您的习惯和情绪,给出真正贴合需求的支持。不再是冷冰冰的机器人,而是像一位随时在线的朋友,用自然的语音陪伴您聊天,甚至能“读懂”您发送的图片和视频。这款Personal Voice and Vision Assistant(个人语音视

延伸阅读