当前位置: 首页
AI
南洋理工开源3D重建框架 单图生成可交互模型

南洋理工开源3D重建框架 单图生成可交互模型

热心网友 时间:2026-05-18
转载

在3D生成技术快速发展的今天,从单张图片创建物体模型已逐渐成为现实。然而,一个普遍存在的痛点也随之凸显:大多数生成的模型仅仅是静态的“雕塑”,缺乏真实的物理交互能力。

想象一下,你生成了一台外观精美的冰箱,却发现它的门无法打开;你指挥机器人去搬运一把折叠椅,它却无法理解椅腿可以收合。这种静态模型与我们所期待的、能够与环境进行智能交互的“具身智能”愿景之间,仍存在巨大鸿沟。

近期,南洋理工大学S-Lab团队提出的MonoArt框架,为这一难题提供了高效且新颖的解决方案。其核心思想非常明确:与其让AI模型盲目地“猜测”物体的运动方式,不如先系统地教会它如何“理解”物体内在的机械结构。

简而言之,MonoArt将单目可动物体重建任务,构建为一个渐进式的结构理解流程。模型并非一次性输出所有复杂的运动参数,而是模仿人类工程师的思维,分步完成几何重建、部件分割、运动关系推断和参数精确估计,最终输出一个集成了精细几何、部件层级与完整关节信息的可交互3D资产。


引言:突破静态模型,迈向可交互重建的挑战

与传统的静态3D重建相比,可动3D重建的任务复杂度呈指数级增长。它不仅需要精准恢复物体的外观形状,还必须进一步解析出:物体由哪些独立部件构成、部件间采用何种关节连接、旋转或平移的轴心位于何处、以及每个关节的运动范围是多少。其核心难点在于,物体的结构与运动方式是深度耦合的:不明确部件的划分,就难以推断其运动模式;反之,不理解运动关系,也无法构建出正确的可动结构。因此,那些试图直接从图像特征回归出所有运动参数的方法,往往稳定性不足,泛化能力也受到限制。

纵观现有技术方案,主要可分为三大类:

第一类是基于多视角或视频序列的方法。它们依赖同一物体在不同开合状态下的多张观测图像,虽然重建效果较好,但对数据采集条件要求极为苛刻,在现实应用场景中往往难以满足。

第二类是基于检索与组装的方法。通过从现有3D资产库中检索相似部件进行拼装来构建可动物体。这种方法受限于资产库的覆盖范围,容易产生几何错误或纹理不匹配的问题。

第三类是基于外部先验的方法。借助大型视觉语言模型或辅助视频生成来推测运动,降低了对多视角数据的依赖。但这类系统通常更为复杂,高度依赖外部先验知识,且推理耗时较长。

这些方法存在一个共性:它们都未能将“深度结构理解”本身作为推理物体运动关系的根本起点。要么依赖额外的观测信息来弥补单视图的不足,要么借助外部知识来提供线索,却回避了一个更本质的问题——能否首先从单张图像中,稳定地解构出物体的几何与部件组成,再基于此可靠地推断出运动关系?

MonoArt正是精准地瞄准了这一核心挑战。它不再将运动参数视为一个需要直接回归的终点,而是将其构建为一个渐进式的、环环相扣的结构推理链条。让几何、部件和运动信息在一条连续的推理线上依次浮现,最终使得“运动”成为“结构理解”之后水到渠成的自然结果。


方法详解:四步渐进式推理框架

具体而言,MonoArt通过四个核心模块的串联,实现了从单张图像到完整可动3D模型的逐步、稳健推理。


第一步:获取高保真3D几何形状

所有高级推理的基础,是一个从单张图像恢复出的高精度三维几何。MonoArt采用TRELLIS作为冻结的3D生成骨干网络,输出一个规范化的网格模型及其对应的潜在特征。这一步的关键意义在于,它将后续所有关于“部件划分”和“运动推断”的推理,都锚定在了明确的三维空间坐标系中,而非模糊的二维图像像素层面。这比直接从图像特征回归关节参数要稳定、直观得多,为后续步骤奠定了坚实的空间基础。

第二步:智能识别与分割可动部件

在获得可靠的3D形状后,下一个核心问题是:这个形状中,哪些部分是可以独立运动的?例如,一个文件柜的门和主体显然是两个不同的运动部件,但原始的网格数据并不会提供这种语义信息。MonoArt的“部件感知语义推理器”正是为了解决这一问题而设计。

该模块将网格表面每个顶点的几何特征,投影到三个正交的二维平面上,再通过Transformer架构捕捉全局的结构上下文关系,最终为每个点生成一个蕴含部件归属信息的特征嵌入向量。在训练阶段,通过引入三元组损失函数,拉大不同部件特征之间的距离,从而使得属于同一部件的点特征高度聚集,而不同部件的点特征显著分离。

下方的可视化对比结果清晰地证明了该模块的有效性:在没有此模块时,点的特征混杂,难以区分不同运动部件;而引入模块并进行监督训练后,不同部件(如柜门、抽屉)的特征在嵌入空间中被清晰地分离出来。


第三步:解耦推理部件的运动语义与空间关系

明确了部件划分后,接下来需要推断每个部件的具体运动方式。这里存在一个关键挑战:完整描述一个部件的运动,需要同时回答两类问题——它的“语义类别是什么”(例如,这是旋转门还是平移抽屉?)以及它的运动“空间参数在哪里”(例如,旋转轴心位于何处?)。

若将这两类信息混杂在同一个特征表示中进行端到端回归,结果往往不稳定。MonoArt创新的“双查询运动解码器”采用了巧妙的解耦设计:使用“内容查询”来编码部件的语义信息,使用“位置查询”来编码运动的空间锚点信息,两者通过6层迭代注意力机制进行逐步对齐与细化。

在每一层迭代中,查询之间通过自注意力模块建模部件与部件之间的相互关系,再通过交叉注意力模块从网格点特征中提取证据。这种“语义与空间并行推理、迭代对齐”的策略,使得运动关系的推断更加稳健和准确。

第四步:输出物理精确的运动学参数

最后,“运动学参数估计器”模块将前几步的推理结果,转化为明确、物理可解释的最终输出。这包括:每个独立部件的精确掩码、关节类型(如固定、旋转、平移)、旋转轴的方向向量、旋转中心的3D坐标、以及运动的角度或位移范围上下限。此外,该模块还会预测部件之间的“父子”层级关系,从而构建出完整的运动学树,明确界定“哪个部件连接在哪个基础部件之上”。

一个精妙的设计细节在于,对于关节中心位置的预测,模型采用了残差学习的形式。它以上一步“位置查询”预测的部件质心作为初始锚点,仅预测一个精细的偏移量。消融实验证明,这种残差预测方式比直接回归绝对坐标更为准确。这也完美呼应了MonoArt整体“渐进式、步步为营”的设计哲学:每一步的推理都稳固地建立在上一步的可靠结果之上。

这种四步递进的框架设计带来了一个显著优势:整个可动重建流程完全自给自足,无需依赖任何外部先验知识——既不需要多视角图像或视频,也无需检索3D资产库,更不依赖视觉语言模型或辅助生成视频。那么,它的实际性能与效果究竟如何?

实验结果:卓越性能与强大实用性

在权威的PartNet-Mobility基准数据集上进行评测,MonoArt在7个常见类别和全部46个类别的两种设置下,均取得了领先的综合性能。

与SINGAPO、URDFormer、Articulate-Anything、PhysXAnything等当前代表性方法相比,MonoArt在多个核心评估指标上表现最优,包括几何重建质量、关节类型分类准确率、以及旋转轴/中心等关键运动参数的估计精度,同时保持了更高的推理效率。

例如,在推理速度方面,对比Articulate-Anything所需的229.9秒和PhysXAnything的256.8秒,MonoArt仅需约20.5秒(其中约18.2秒用于TRELLIS的3D几何生成,新增的运动推理开销仅约2秒),效率提升显著。

更重要的是其在下游机器人任务中展现出的实用价值。MonoArt生成的可动3D物体能够直接用于机械臂的仿真训练。重建出的模型可以无缝导入Isaac Sim等物理仿真环境,让Franka等机械臂执行抓取、开门、操作抽屉等复杂任务,而无需任何额外的人工关节标注。这充分证明了其生成结果具备“开箱即用”的可用性。此外,MonoArt的框架能力还可以进一步扩展,用于生成包含多个可动物体的复杂交互场景。

总结与展望

MonoArt为单目可动3D重建领域指明了一条清晰且有效的技术路径:与其依赖日益庞杂的外部数据与先验去“弥补”信息的缺失,不如通过精心设计的渐进式结构推理,让AI模型真正学会理解物体为何如此构成、以及如何基于物理规律运动。

当然,该方法目前也存在一定的局限性。例如,对于尺度差异极大的微小部件,均匀采样可能导致其特征不够显著;对于拓扑结构极其新颖或罕见的运动模式,模型的参数预测精度也可能面临挑战。这些存在的问题,也为未来更深入的研究与技术优化留下了宝贵的探索空间。


来源:https://www.163.com/dy/article/KR46M3P70511ABV6.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
预计算力需求持续旺盛行业景气度维持高位

预计算力需求持续旺盛行业景气度维持高位

近日,上海在数字经济战略布局上再出关键举措。市政府办公厅正式印发《国家数字经济创新发展试验区(上海)实施方案》,其中对算力资源的规划部署成为业界关注焦点。方案明确提出,要加快推进算力资源的高效互联与协同调度。具体而言,将进一步提升上海市算力监测调度平台与长三角(上海)算力互联互通平台的核心功能,积极

时间:2026-05-18 19:28
千问AI一键生成PPT 三分钟完成内容排版

千问AI一键生成PPT 三分钟完成内容排版

近日,千问AI的PPT生成功能迎来了一次架构层面的重大升级,全面转向全新的智能体驱动模式。官方数据显示,升级后的系统能在1至3分钟内,自动完成从主题分析、内容规划、素材搜集到版式设计的全流程工作。这一效率的飞跃,迅速在教育工作者及办公用户群体中引发了广泛的试用与热议。 具体而言,用户现在只需输入简单

时间:2026-05-18 19:28
上交大与vivo团队在CVPR 2026提出扩散模型高效优化新方法

上交大与vivo团队在CVPR 2026提出扩散模型高效优化新方法

许多用户初次接触图像生成模型时,常被其快速生成“像模像样”图片的能力所惊艳。然而,当真正将其投入高频生产工作流时,另一层面的挑战便逐渐浮现。 例如,在创作活动主视觉时,模型生成的前几稿可能在主体、色调与氛围上都符合预期,但一旦放大审视细节,手部结构、材质纹理或元素间的边缘关系往往经不起推敲。又如,为

时间:2026-05-18 19:28
支付宝AI付龙虾插件更新日志与安装升级指南

支付宝AI付龙虾插件更新日志与安装升级指南

当你在对接支付宝AI付功能,使用OpenClaw(常被开发者称为“龙虾”)插件时,如果突然遇到功能异常、支付回调失败,或者系统无法识别最新的交易字段,这很可能不是你的业务逻辑出了问题,而是插件版本滞后了。技术栈的兼容性就像齿轮,一个齿对不上,整个传动就可能卡住。别担心,升级插件通常就能解决。下面这几

时间:2026-05-18 19:27
支付宝AI付在龙虾OpenClaw上的测试与支付成功确认指南

支付宝AI付在龙虾OpenClaw上的测试与支付成功确认指南

为OpenClaw(龙虾)成功接入支付宝AI付功能后,如何全面验证支付链路是否真正畅通无阻?关键在于模拟一次真实的用户支付行为,并严格确认从指令识别、订单生成、授权跳转、支付执行到状态记录的五个核心环节全部正常运转。以下这套详细的测试流程,将帮助你系统性地完成功能验证,确保支付体验流畅可靠。 一、发

时间:2026-05-18 19:27
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程