当前位置: 首页
AI资讯
北大港中文与上海AI Lab联合发布VGGT-Edit 3D场景编辑工具120倍速

北大港中文与上海AI Lab联合发布VGGT-Edit 3D场景编辑工具120倍速

热心网友 时间:2026-05-28
转载

3D生成技术已经能够“看见”世界,但距离“修改”世界仍有差距——这正是当前领域面临的核心挑战。

5秒完成3D场景编辑,北大&港中文&上海AILab搞出VGGT-Edit,120倍加速太炸了

从NeRF到3D Gaussian Splatting,再到VGGT、π³等前馈式3D重建模型,技术迭代日新月异。如今,仅凭几张图片,即可在数秒内构建出完整的3D场景。

然而,瓶颈也随之显现。现有模型虽能理解三维结构,却难以执行精准的编辑指令。例如,重建一个房间后,用户希望“将椅子移至窗边”、“移除中间的椅子”或“将灰色皮沙发更换为白色长毛款式”,这些操作仍充满挑战。

更棘手的是,复杂编辑常导致模型崩溃:物体在不同视角下时隐时现,未修改的背景区域发生畸变,一致性难以维持。

为攻克此难题,来自北京大学、香港中文大学、上海人工智能实验室、南洋理工大学等机构的研究团队,联合推出了原生3D编辑框架:VGGT-Edit

其核心思路直击要害:摒弃迂回的2D编辑路径,直接在3D空间内完成修改。

在DeltaScene测试集上,VGGT-Edit在语义一致性、多视角稳定性与推理速度三大指标上均超越现有方案,单次编辑耗时仅约5秒,最高可实现120倍的速度提升。

症结所在:传统2D编辑思维的局限

当前主流的3D编辑方法,本质上仍未脱离“2D思维”:将场景分解为多个2D视图,分别编辑后再试图融合回3D。

由于各视角独立处理,不可避免地引发一系列问题:

  • 物体在某一视角被删除,另一视角却依然存在;
  • 背景区域发生非预期的位移或变形;
  • 物体边缘出现重影、闪烁等伪影。

最终结果往往像是“多张硬性合成的图片”,而非一个稳定、连贯的三维空间。

这对于机器人导航、增强现实/虚拟现实(AR/VR)、空间智能等应用而言是致命缺陷——它们需要的是整个3D世界在所有角度都保持逻辑一致,而非仅某个视角正确。

迈向实用:原生3D编辑框架的突破

VGGT-Edit的设计哲学非常明确:既然问题源于2D转换,便应彻底转向原生3D编辑。

该框架基于VGGT-Like前馈重建模型构建,继承了其高效、快速的3D表示能力。但创新之处在于,团队并未选择全场景重新生成,而是引入了一种巧妙的残差场预测(Residual Field Prediction)机制。

简而言之,模型首先保留原始场景稳定的三维结构,仅学习需要发生变化的局部区域,例如:

  • 物体的位移调整;
  • 材质或颜色的替换;
  • 特定物体的删除或新增。

这一过程可概括为一个简洁公式:新场景 = 原场景 + 局部残差变化

该设计的显著优势在于:由于大部分区域无需改动,模型无需重新生成整个场景,仅聚焦于局部修改。因此,未被编辑的背景区域能保持高度稳定,这是VGGT-Edit与许多传统方法最直观的区别。

语义对齐:文本指令与3D空间的深度耦合

研究团队发现,若仅将文本指令简单输入模型,常导致模型理解“要改什么”,却无法精准定位“该改哪里”。

为此,VGGT-Edit设计了一套深度同步文本注入(Depth-Synchronized Text Injection)机制。

其本质是让文本语义信息与3D空间特征在相同的深度层级上持续对齐与融合。

不同于传统方法仅在前期注入一次文本,VGGT-Edit在多个关键网络层持续融合语义信息,确保模型在整个生成过程中始终明确:

  • 当前应修改哪个空间区域;
  • 修改的具体目标是什么;
  • 该区域在三维空间中的确切位置。

此外,团队还设计了视角重要性加权策略。由于不同视角的可靠度不同(如存在遮挡或局部可见),模型能自动评估各视角的可信度,从而生成更稳定、一致的多视角编辑结果。

专用架构:为3D编辑量身定制的编辑头

除了整体框架,VGGT-Edit另一个核心组件是专门为3D编辑任务设计的编辑头(Editing Head)

研究发现,VGGT-Like模型原有的重建头更侧重于“如何复原场景”,而3D编辑的核心需求是:如何在保持全局稳定的前提下,精准修改局部。

因此,VGGT-Edit额外引入了一个编辑分支,专门预测场景中的局部变化。该编辑头直接作用于3D表示空间,并输出对应的残差场。本质上,它学习的是:

  • 哪些区域应保持原状;
  • 哪些区域需执行编辑;
  • 编辑后如何保证多视角一致性。

相比全场景重生成,这种定向修改的方式更稳定、更高效,也是让前馈式重建模型获得强大编辑能力的关键一步。

数据驱动:专为3D编辑构建的大规模数据集

为训练VGGT-Edit,团队构建了全新的3D编辑数据集DeltaScene,规模近10万组,覆盖客厅、办公室、住宅、商业空间等多种场景。

更重要的是,数据生成流程实现了高度自动化。利用Qwen3.5-Plus、SAM3、Qwen-Image-Editing-Max等工具,自动完成编辑指令生成、目标识别、多视角编辑与3D一致性过滤,最终产出真正满足“多视角几何一致”要求的高质量训练数据。

对于原生3D编辑而言,这一步至关重要——模型需要学习的不仅是“图像层面的变化”,更是同一编辑指令在不同视角下如何始终保持三维空间的一致性。

速度革命:3D编辑迈入近实时交互时代

实验结果验证了该路径的有效性。在DeltaScene测试集上,VGGT-Edit在语义一致性、多视角稳定性与推理速度上均领先现有方法。

尤其在添加家具、调整物体位置、修改材质等复杂任务中,传统方法常产生明显的“贴图感”与几何漂移,而VGGT-Edit的结果则更接近真实、稳定的三维空间。

速度提升尤为关键:论文显示,VGGT-Edit单次编辑仅需约5秒,相比依赖长时间优化的传统方法,最高可实现120倍加速。

这意味着3D编辑首次真正接近实时交互。对于机器人操作、数字孪生、AR/VR等领域,这一进展意义重大——只有当编辑速度足够快,3D世界才能真正成为可实时操作与交互的空间。

理解空间:模型学会泛化编辑能力

论文中一项有趣实验展示了模型的泛化能力。研究人员输入了一条训练中未出现的指令——“将中间椅子顺时针旋转90度”,模型依然成功完成了编辑。

这表明VGGT-Edit学到的并非固定模板,而是开始真正理解文本语义如何映射到三维空间的变化。

这种能力或许比“生成3D场景”本身更为重要。对于空间智能的未来,核心能力或许不在于“创造一个世界”,而在于能否像人类一样,自由、稳定、实时地修改与塑造这个世界。VGGT-Edit,正将这一愿景向前推进了一步。

论文链接:https://arxiv.org/abs/2605.15186

来源:https://www.qbitai.com/2026/05/425870.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
修Bug被Gemini追删代码致宕机修复报告现编

修Bug被Gemini追删代码致宕机修复报告现编

最近,一起堪称“教科书级别”的AI Agent IDE翻车事件在开发者社区引发热议。这起事故值得所有依赖AI编程工具的开发者,尤其是那些已经在生产环境中对AI Agent 授予较高权限的团队,进行深刻反思。 简单回顾:5月26日,一位开发者要求Gemini 3 5(运行在Agent IDE环境中)修

时间:2026-05-28 22:58
Notion AI运营指南:自动归纳用户反馈

Notion AI运营指南:自动归纳用户反馈

其实,想在 Notion 中高效搞定用户反馈的自动归纳,并不复杂。下面这四种 AI 方法,基本覆盖了从单条处理到全局分析的常见场景。 如果你也在用 Notion 收集用户反馈——无论是问卷、邮件、客服记录,还是社群发言——但总觉得信息碎片化严重,难以提炼共性问题和核心诉求,那很可能是因为缺少一套结构

时间:2026-05-28 22:54
AI给出的答案为何总不符期望?原因解析

AI给出的答案为何总不符期望?原因解析

大模型能力强大,但提问方式不当会导致结果不理想。核心在于精准提问,通过角色设定、背景介绍、明确任务、实现路径和输出要求这五个关键步骤逐步细化问题,才能大幅提升AI回答的质量和精准度。

时间:2026-05-28 22:54
Anthropic新AI聊天机器人模型声称在多项测试中击败OpenAI GPT-4

Anthropic新AI聊天机器人模型声称在多项测试中击败OpenAI GPT-4

2024年3月5日,人工智能领域迎来了一位重要参与者——由OpenAI前员工创立的Anthropic公司正式推出了Claude 3系列模型。这次发布极具分量:新模型不仅在性能上与Google和OpenAI的顶级产品并驾齐驱,部分指标甚至实现超越。要理解此次升级的真正价值,先关注几个关键变化。首先是多

时间:2026-05-28 22:53
Trae对Deno与Bun运行时的AI代码补全支持程度全面详解

Trae对Deno与Bun运行时的AI代码补全支持程度全面详解

如果你在使用 Trae 进行 AI 代码补全时发现,它对 Deno 或 Bun 运行时的提示不够精准——例如类型定义缺失、API 无法正确识别——那很可能不是代码本身有误,而是 Trae 的底层配置尚未适配。简而言之,Trae 对于非 Node js 运行时的标准库支持尚未实现“开箱即用”。下面我们

时间:2026-05-28 22:52
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程