数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

热点详情

分钟人类第一人称视频零样本教会机器人双臂操作｜马里兰大学HumanEgo

AI热点日报时间：2026-07-05

热点解读

马里兰大学提出HumanEgo框架，仅用30分钟人类第一人称视频即可零样本教会机器人双臂操作。该方法将人手与物体交互转化为形态无关的交互中心表征，结合flowmatching策略，无需机器人数据或微调即可部署。在四项真实双手任务上达92 5%成功率，并零样本迁移至多种机器人、相机与环境。

以往需要30天的机器人遥操作工作，如今只需佩戴一副智能眼镜就能轻松完成。当机器人的数据接口从实验室环境迁移到日常生活场景，制约其规模化扩展的瓶颈便不再仅仅是数据量的问题——数据接口本身才是决定性的关键因素。

30分钟人类第一人称视频，零样本教会机器人双臂操作｜马里兰大学提出HumanEgo

HumanEgo的整体框架：人类佩戴Aria眼镜采集第一人称视频（左侧），经过处理转化为交互中心表征，再训练流匹配策略（中间），最终无需任何微调即可部署到不同机器人上——对环境、相机和机器人本体均无限制（右侧）。

视觉-语言大模型在过去几年取得的巨大成功，本质上得益于一个廉价且可无限扩展的数据接口——互联网。任何人撰写博客或拍摄照片，都在为下一代大模型贡献宝贵的数据资源。

然而，机器人学习领域一直缺乏这样的高效数据接口。目前最先进的操控策略仍然依赖于机器人遥操作数据：专业操作员通过控制器远程操纵机器人，一遍遍地演示抓取和放置动作。这种方式成本高昂、效率低下，必须在设备齐全的实验室中进行，而且数据与机器人硬件高度耦合——更换一台机器人或一个工作站，之前采集的数据几乎无法复用。

近一年来，学术界开始尝试利用人类第一人称视频作为机器人训练的数据来源。从EgoMimic、EgoZero到AINA，不同研究团队都在探索这条技术路线。不过，现有的工作大致沿着两个方向推进：要么使用人类视频与机器人数据进行协同训练，要么先在数千小时的视频上进行大规模预训练——这两种方法都未能完全摆脱对机器人数据的依赖。因此，一个自然的问题随之产生：一名普通人，只需佩戴一副智能眼镜、拍摄几分钟视频，能否直接训练出一个可供部署的机器人策略？

马里兰大学团队提出的全新框架HumanEgo，给出了肯定的答案：

仅需30分钟的人类第一人称视频，无需任何机器人数据、无需针对机器人的后训练、也无需互联网级别的预训练，就能在4个真实世界的双手协作任务中实现92.5%的成功率，并且能够零样本迁移到不同的机器人、相机和场景中。

值得一提的是，HumanEgo一经公开便引发了社区的广泛关注：X（推特）上相关讨论帖的浏览量已接近10万，开源代码在短短数日内获得了230多个GitHub星标，不少研究者表示希望复现这套从人类视频中学习的流程。

论文标题：HumanEgo: Zero-Shot Robot Learning from Minutes of Human Egocentric Videos
作者团队：Zhi (Leo) Wang, Botao He, Kelin Yu, Seungjae Lee, Ruohan Gao, Furong Huang, Yiannis Aloimonos（马里兰大学）
论文链接：https://arxiv.org/abs/2605.24934
项目主页：https://humanego-ai.github.io
代码仓库：https://github.com/TX-Leo/HumanEgo
完整视频：https://www.youtube.com/watch?v=pdL46diijuY

为什么“人类视频”这么难直接拿来用？

让普通人佩戴Meta Aria这类智能眼镜，可以在厨房、车间或办公室等场所采集到携带6-DoF头部轨迹和3D手部关键点的高质量视频。但是，用人类视频直接训练机器人，面临着两大难题：

其一，跨形态的表征鸿沟。人手与机器人夹爪在视觉外观和运动学上存在根本性差异：人手有21个关节且容易自遮挡；机器人夹爪则是金属材质的平行开合结构。直接利用人手视频训练出的策略，部署到机器人上必然失效。

其二，极少数据下的学习难题。30分钟的视频大约只包含60条轨迹记录，在这个数据量级下，主流的模仿学习方法（如ACT、Diffusion Policy）极易出现过拟合问题，更不用说泛化到从未见过的场景了。

数据采集：戴一副Aria Gen1眼镜，在任意环境完成演示，每条演示只需几秒，无需标定或专用工作站。

核心思路：把表征建立在“交互”上，而不是“身体”上

HumanEgo的核心洞察可以概括为一句话：机器人不应模仿人的身体，而应恢复任务相关的“手-物交互几何”。

团队将场景中的每只手和每个物体都视为一个实体，并为每个实体计算一个29维的交互中心Token，以编码实体在参考系下的6D位姿、左右手相对于该实体的位姿以及抓取状态。

系统架构：视觉端通过抠除人臂 + 渲染虚拟夹爪消除外观差异；空间端用ICT序列编码实体间关系；flow matching策略配合三个密集辅助目标，从分钟级人类数据学出双手机器人动作。

这个表征具备三个关键特性：

实体相对——每个token描述的是“手相对于物体如何靠近、抓取、运输”，这正是操作任务的本质信号；

形态无关——人手经过简单重定向，被抽象成“虚拟双指夹爪”，无论是人手还是Trossen、UR5、Franka等机器人夹爪，都能生成相同的token；

变长接口——场景中有几个物体就生成几个token，天然适配不同任务的需求。

手到夹爪：人手21个关键点被重定向为一个SE(3)虚拟夹爪 + 1维开合状态。

在物体一侧，团队利用Grounding DINO与SAM2进行检测和分割，CoTracker3跨帧追踪关键点并三角化到3D空间，再通过Orient-Anything估计物体朝向。抓取时物体常被手遮挡，HumanEgo引入了运动学锁定——从抓取那一刻起，将物体位姿刚性绑定到手上，确保遮挡期间表征依然保持稳定和连续。所有这些数据都来自现成的感知模型，无需任何人工标注。

在视觉端，HumanEgo使用SAM2与LaMa抠除人手和人臂，再将虚拟夹爪和物体关键点渲染回原图，得到“看起来已经像机器人在操作”的本体无关观测——通过轻量级渲染绕开了昂贵的域适应或图像翻译过程。

策略采用流匹配（flow matching）（比扩散模型更快，比ACT更具表达力），并叠加了三个密集辅助目标：物体运动预测、2D轨迹回归、以及潜在一致性。这些目标在3D物理、2D视觉和潜在空间三个互补的维度上预测场景的变化，使得每条演示不再只产生一个动作监督信号，而是挖掘出四种密集信息——这正是低数据量下实现高效学习的关键所在。

实验：92.5%成功率，比遥操作高41%

团队在4个真实世界的双手协作任务上进行了系统评估，分别考验抓取放置、长程多步、接触密集双手协同、以及持续旋转控制——其中，拆叠杯子要求三步动作实现零误差累积，浇花任务则需要两臂严格遵守时序配合。

Serve Bread：从任意位置抓起面包，平稳放到盘子中央。

Downstack Cups：长程多步任务——推倒、抓取、重新堆叠三个嵌套杯子，任何一步出错都会导致累积性失败。

Water Flowers：接触密集双手协同——一臂举喷头，一臂开阀门，严格时序配合。

Adjust Table：握住摇把连续旋转三整圈，全程不能松手。

每个任务执行40次试验，对比了5个零样本基线（EgoZero、PointPolicy、ZeroMimic、Track2Act、SPOT）以及匹配时长的ACT遥操作基线。结果如下：

HumanEgo-30在四个任务上全面领先；仅用15分钟数据的HumanEgo-15，其表现已经超过了使用30分钟机器人数据训练的ACT。

92.5%平均成功率（基于30分钟人类视频，涵盖四个任务）；
仅15分钟人类数据即可达到75%，已超过30分钟遥操作的51%；
比匹配时长的ACT遥操作高出41%；
8分钟人类视频（57.5%）即超越了30分钟机器人数据（52.5%）——实现了3.75倍的数据效率。

五个零样本基线只能捕捉操作的局部侧面，在需要精确手-物推理的任务上集体表现不佳（最高不超过45%），HumanEgo是唯一在四个任务上都保持高成功率的方法。

数据效率曲线：人类数据曲线全程高于机器人遥操作，8分钟即反超30分钟遥操作。

更关键的发现来自消融实验。团队对比五种表征配置后发现：纯视觉方法的天花板仅为32.5%，无论怎样进行抠图或渲染；而一旦加入ICT，成功率直接跃升至85%（提升了52.5个百分点），完整模型更是达到了95%。显式的交互中心空间表征，才是实现跨形态迁移的真正核心。

表征消融：纯视觉天花板32.5%，加入ICT后跃升至85%；三个辅助目标进一步带来增益。

一个策略，零样本适配多种机器人、相机与环境

将单一的HumanEgo策略直接部署到9种分布外条件（包括不同机器人、相机、光照以及物体）下，成功率全部稳定在85%至95%之间，无需任何重新训练或微调。

零样本跨条件泛化：跨本体、跨相机、跨环境均保持85-95%成功率。

跨本体：同一策略零样本部署到不同机器人手臂。

跨环境：更换背景、光照、干扰物，策略依然稳定。

跨设置：更换相机、视角、桌面高度，策略零样本适配。

不止四个任务：更多真实世界能力

除了四个主要任务外，HumanEgo同样能够学会一系列日常操作，所有这些都来自分钟级的人类视频：

给设备充电。

拧开瓶盖。

开门。

开柜子。

抽取纸巾。

写在最后：当数据接口从实验室搬到日常

HumanEgo表面上是一项技术工作，但它真正想传达的是一个更宏观的判断：机器人学习的瓶颈，并非“数据太少”，而是“数据接口与机器人硬件绑死”。

当可穿戴的第一人称视频成为新的数据接口，机器人数据的收集便从“实验室里的稀缺资源”转变成了“人人均可参与、可以自主设计的工作流”：任何人都能贡献数据，采集可以在真实世界的任意角落进行，同一份数据也能跨多个机器人复用。团队同时指出了下一步发展方向——将这套范式扩展至多指灵巧操作、长程工业流程，以及从大规模人类视频中持续学习。正如论文结尾所写：有了正确的表征和学习目标，人类第一人称视频可以成为机器人学习的通用数据接口。

HumanEgo完整演示视频（约1分30秒）：一镜看完数据采集、方法原理与真实机器人执行。

关于团队

HumanEgo由马里兰大学研究团队完成，作者包括Zhi (Leo) Wang、Botao He、Kelin Yu、Seungjae Lee、Ruohan Gao、Furong Huang、Yiannis Aloimonos。

一作王治是马里兰大学的研究者，其研究方向聚焦于面向机器人学习的可扩展数据接口——如何让人类经验通过可穿戴感知实现规模化，从而为下一代通用操作策略提供支持，涵盖跨形态学习与从人类视频中高效学习等方向。HumanEgo正是这一研究思路的集中体现。

导师Yiannis Aloimonos是马里兰大学计算机系教授、UMIACS计算机视觉实验室主任，作为主动视觉与认知机器人领域的奠基性学者之一，长期致力于视觉、行动与语言交汇点的研究，旨在让机器人像人类一样在与世界的交互中持续学习。

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：分钟人类第一人称视频零样本教会机器人双臂操作｜马里兰大学HumanEgo要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://www.jiqizhixin.com/api/article_library/articles/2026-06-13

机器人

上一篇：阿里云Hermes Agent对接OpenClaw Token Plan零基础部署指南

下一篇：李飞飞空间智能公司一次性发布三篇论文

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。