当前位置: 首页
AI资讯
哈工深发布EgoTouch触觉数据集 百万帧视觉触觉同步助力具身智能

哈工深发布EgoTouch触觉数据集 百万帧视觉触觉同步助力具身智能

热心网友 时间:2026-05-20
转载

在具身智能的演进道路上,触觉感知已成为当前最亟待突破的关键技术。尽管多模态大模型已让机器人具备了“视觉”与“听觉”,但要让智能体真正理解并自如地操作物理世界,赋予其“触觉”能力是迈向实用化的核心一步。

然而,获取高质量、可用的触觉数据面临诸多挑战。这不仅涉及高精度传感器的部署,更关键的是如何实现触觉信号与视觉、动作在时空上的精准对齐,如何覆盖足够多样化的真实交互场景,以及如何构建能够从视觉信息中有效推理出触觉分布的智能模型。

随着Ego4D等大规模第一人称数据集的兴起,基于第一人称视角视频的具身学习研究获得了广泛关注。相较于传统的机器人遥操作数据集,第一人称数据在采集成本、视角覆盖以及交互自然度上优势显著,能更真实地复现人类与环境的互动过程,因而成为该领域的重要发展方向。

但一个核心瓶颈也随之凸显:现有的第一人称数据集普遍缺失了人类与环境交互中最关键的模态——触觉。缺乏触觉信息,模型便难以理解“接触”背后的力学本质。即便是抓取、搬运等基础操作,系统也无法判断抓握是否牢固、施力是否恰当,这严重制约了智能体在真实场景中的实际应用能力。

为攻克这一难题,哈尔滨工业大学(深圳)杨朔教授团队取得了突破性进展,发布了业界首个基于第一人称视角的多模态触觉数据集——EgoTouch,并配套提出了触觉估计框架TouchAnything。该方案同步采集了第一人称视觉、双手腕部视角视频、双手全掌高分辨率触觉压力信号以及手部关节三维位姿数据,首次实现了视觉与触觉的紧密对齐,为从视觉中“看见”触觉提供了全新的技术路径与基准。

EgoTouch数据集概览

EgoTouch数据集的设计,精准瞄准了触觉数据采集的几大核心痛点,并提供了系统性的解决方案。

多视角融合双手全掌触觉:EgoTouch首次实现了第一人称视角与双手腕部视角的多路视频,与双手全掌真实触觉压力数据的同步采集。第一人称相机提供了全局操作语境,而腕部相机则完美补充了常被手部自身遮挡的精细手物接触细节。

密集连续的全掌压力分布:通过可穿戴触觉采集手套,数据集提供了精确到手掌各区域的动态压力分布图,而非简单的二值接触信号,实现了对触觉的精细化度量。

涵盖极丰富场景的双手操作:数据集包含了超过300项精细手部操作任务,涵盖抓取、按压、工具使用、双手协调等多种类型,场景横跨室内、室外、商业环境,极大保证了数据的多样性与模型泛化潜力。

全模态数据严格时间同步:所有模态——三路视频、双掌压力图、双手42个关节的精确位姿——均进行了严格的逐帧时间对齐,为多模态融合学习奠定了坚实基础。

1. 与现有数据集相比,EgoTouch提供了最全面的模态信息

EgoTouch不仅包含了室内外的丰富环境信息,更提供了双掌的精确压力触觉数据。其操作物品类型超过1000种,总数据帧数突破两百万,在模态完整性与数据规模上均设立了新的行业标杆。

2. EgoTouch有着极其丰富的任务和场景分布

数据集将总体任务系统地划分为居家、工坊、办公、零售、户外五大场景类别,每个类别下都包含了多样化的具体任务类型,确保模型能在各种真实复杂环境下得到充分训练与验证。

3. 提供了一种可复现的标准化具身灵巧操作全模态数据采集流程

下图清晰展示了杨朔团队设计的这套标准化数据采集方案。它包含三个可穿戴式摄像头(用于第一人称和双腕视角)、一双Rokoko手部关节动捕手套、三个HTC Vive定位追踪器以及一双核心的压力触觉手套。这套流程清晰、标准、可复现,为后续相关研究提供了可靠的蓝本。

模型架构

有了高质量的数据,还需要强大的模型来挖掘其中的价值。基于EgoTouch数据集,研究团队构建了多视角触觉预测模型TouchAnything,为视觉到触觉的推理任务建立了基准方法。

该模型以DINOv2作为视觉骨干网络,创新性地设计了可学习的视角嵌入和跨视角交叉注意力机制。这意味着,模型能够智能地融合来自不同视角的视觉信息。更值得一提的是,即使在某个视角缺失(例如仅有第一人称视角)的情况下,模型依然能够提供相对准确的触觉预测,展现了良好的鲁棒性与实用性。

实验结果展示

以下视频与图片展示了TouchAnything模型的具体推理效果。可以看出,模型能够相当准确地预测出触觉压力在手掌上的分布情况,无论是简单的静态抓握还是复杂的动态操作,均表现出色。

多视角拔插充电器:

双手抛接网球:

单手鼠标操作:

便利店饮料抓握:

超市货品购买:

单手颠乒乓球:

多视角输入可以提升触觉预测准确性

实验数据有力证明,多视角输入能够显著提升触觉预测的性能。与仅使用第一人称视角相比,融合了左右手腕视角的多视角输入,无论在已见物体还是未见物体的测试设置下,都取得了一致的性能提升。其中,三视角联合输入的模型在Temporal_Accuracy、Contact_IoU、Volumetric_IoU和MAE等多个关键指标上表现最佳。

这种提升主要源于不同视角间的信息互补:第一人称视角把握整体交互语境,而手腕视角则能捕捉到那些被手部自身遮挡的关键接触细节,尤其在抓取起始和施力阶段,这些细节对于准确还原触觉压力分布至关重要。

数据规模提升显著增强触觉预测性能

另一个重要发现是,模型的性能随着训练数据规模的扩大呈现出稳定的扩展趋势。当训练数据比例从25%逐步提升至100%时,Contact_IoU与Volumetric_IoU指标持续改善,而平均绝对误差则稳步下降。更重要的是,这种性能提升在未见物体上的泛化能力同样显著。这表明,TouchAnything方法能够有效地从大规模数据中学习到鲁棒的视觉-触觉映射关系,具备强大的跨对象泛化潜力,验证了大数据驱动下触觉预测模型的可扩展性。

展望

回到核心观点:触觉,是具身智能走向实用化不可或缺的关键感知维度。EgoTouch数据集的发布,为当前灵巧操作与机器人学习研究填补了稀缺的高质量触觉信息空白。而TouchAnything框架,则为如何利用第一人称视觉数据预测触觉提供了高效、可靠的基准解决方案。

可以预见,灵巧操作将是具身智能亟待攻克的下一个技术高地,而触觉模态将在其中扮演主导角色,为高难度的精细操作提供最直接的物理反馈与状态评估。另一方面,在“世界模型”日益受到关注的当下,触觉信息也能为其注入关键的力学感知维度,共同构建更可信的环境状态预测和更可靠的动作生成与决策系统。

这项研究标志着我们在让机器“感知”并“理解”物理世界的道路上迈出了坚实一步。从“看得见”到“摸得着”,具身智能的感知拼图,正在被一块块精准补齐,为未来通用机器人的发展奠定了重要基础。

来源:https://www.51cto.com/article/839976.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
中国人工智能数据量2026年将突破199EB 年增长率近43%

中国人工智能数据量2026年将突破199EB 年增长率近43%

预计2025年中国人工智能数据总量将达199 48EB,同比增长42 86%。推理数据量首次超越训练数据,达101 34EB,标志AI进入大规模实战阶段。同时,软件与AI生成数据将首次超过传统物联感知数据,推理算力需求预计达训练算力的三倍以上。国家数据局将重点布局低时延、高可靠算力场景,支撑智慧交通等应用。

时间:2026-05-20 16:40
微软或为AI供电放弃清洁能源目标惹争议

微软或为AI供电放弃清洁能源目标惹争议

微软可能搁置2030年清洁电力承诺,以应对AI数据中心扩张带来的巨大电力需求。该目标要求实时匹配零碳电力,技术挑战大。AI业务推高微软碳排放,且巨额资本支出正收紧预算,公司已考虑投资天然气发电。若放弃原目标,将标志科技行业在增长压力下环保承诺的转变。

时间:2026-05-20 16:40
苹果电脑安装OpenClaw详细图文教程

苹果电脑安装OpenClaw详细图文教程

在 macOS 系统上成功运行 OpenClaw 项目,首先需要搭建一个稳定高效的 Node js 开发环境。本指南将详细介绍从零开始的配置流程,帮助你规避常见的安装陷阱,特别是解决 Homebrew 安装时的网络问题和依赖缺失,确保后续开发顺畅无阻。 1 安装Homebrew Homebrew

时间:2026-05-20 16:39
Anthropic五年斥资两千亿美元采购谷歌云与芯片服务

Anthropic五年斥资两千亿美元采购谷歌云与芯片服务

Anthropic与谷歌云达成五年2000亿美元采购协议,占谷歌未实现收入超40%,推动其股价上涨。此举旨在巩固AI训练所需的多元化算力供应链。此前谷歌已计划投资数百亿美元,亚马逊亦承诺千亿级采购与投资。科技巨头正通过资本绑定AI核心技术,以换取长期订单与生态话语权。

时间:2026-05-20 16:39
OpenAI发布三款实时语音模型支持推理对话与实时翻译转录

OpenAI发布三款实时语音模型支持推理对话与实时翻译转录

OpenAI近期发布的三款全新实时语音模型,再次将人工智能与语音交互的融合推向新高度。GPT‑Realtime‑2、GPT‑Realtime‑Translate以及GPT‑Realtime‑Whisper的推出,并非简单迭代,而是针对不同垂直场景提供了一套专业且完整的语音AI解决方案,旨在彻底革新人

时间:2026-05-20 16:39
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程