北大港中文上海AI Lab联手推出VGGT-Edit 3D场景编辑效率提升120倍
3D场景生成技术如今已能“看懂”世界,但距离“灵活修改”仍有巨大鸿沟。
从NeRF到3D Gaussian Splatting,再到VGGT、π³等前馈式重建模型,技术迭代日新月异——仅凭几张图片,短短数秒,一个完整的3D场景便能呈现眼前。
然而,瓶颈也在于此。这些模型虽已学会“理解”三维结构,却远未掌握“编辑”三维世界的核心能力。你可以轻松重建一个房间,却难以对其下达精确指令:
“请将椅子移至窗边,移除中间那把,并将灰色皮质沙发替换为白色长绒款式。”
更棘手的是,一旦涉及此类复杂编辑,现有方法往往漏洞百出——从某个视角看物体已消失,换个角度却又如“幽灵”般重现;明明只想修改前景物体,背景却随之扭曲变形。
针对这一核心挑战,来自北京大学、香港中文大学、上海人工智能实验室、南洋理工大学等机构的研究团队,提出了一套创新解决方案:VGGT-Edit。其核心思路直击要害:
彻底绕开繁琐的2D转换路径,直接在3D空间内完成编辑操作。
在DeltaScene测试集上,VGGT-Edit在语义一致性、多视角稳定性与推理速度三大关键指标上全面领先现有方案,单次编辑耗时仅约5秒,最高可实现120倍的速度提升。
问题根源:传统方法困于2D思维
当前绝大多数3D编辑方法,本质上仍未脱离“2D思维”的局限。它们通常先将3D场景分解为多个2D视角图像,对每张图像独立进行编辑,再试图将修改结果拼接回3D整体。
这种“分而治之”的策略带来了根本性难题:由于各视角被独立处理,编辑结果在多视角间无法保持一致。从而导致:
- 某一视角中物体已被删除;
- 转换角度后,该物体依然存在;
- 本应保持不变的背景区域发生畸变;
- 物体边缘出现重影与闪烁等视觉瑕疵。

△ 传统基于2D的编辑方法导致的多视角不一致问题
许多输出结果更像“在不同角度强行合成的图片集合”,而非内在统一、稳定的3D空间。对于追求高可靠性的机器人导航、增强现实/虚拟现实应用乃至未来的空间智能而言,这种不一致性是致命缺陷——它们需要的不是“某个角度正确”,而是整个3D世界在任何视角下均保持逻辑自洽。
原生3D编辑:从概念走向实用
VGGT-Edit的应对策略极为直接:既然问题源于2D转换的损耗,便彻底摒弃这一路径。
整个框架构建于VGGT等高效的前馈式3D重建模型之上,继承了其快速生成紧凑3D表示的能力。但团队的巧妙之处在于,并未选择笨拙地重新生成整个场景,而是引入了一项精妙机制:
残差场预测。

△ VGGT-Edit的核心“残差场预测”思路
这一概念可简单理解为:模型首先稳固捕捉原始场景的3D结构,随后仅学习“哪些部分需要发生变化”。例如:
- 椅子需向右平移;
- 沙发表面材质需从皮质改为绒布;
- 特定物体需要移除;
- 需添加新的家具物件。
所有编辑操作均被统一表达为一个简洁公式:新场景 = 原场景 + 局部残差变化。
此设计带来显著优势:由于场景大部分区域无需改动,模型不必费力“重新构想整个世界”,只需聚焦于局部修改。其结果便是,未被编辑的背景区域能保持高度稳定性,这正是VGGT-Edit与众多现有方法最直观的差异之一。
文本语义与3D空间的深度对齐
研究团队在实践中发现,若仅将文本指令(如“移动椅子”)简单输入模型,极易出现“指令理解偏差”——模型大致知道修改目标,却难以精确定位具体区域。
为解决这一“对齐”难题,VGGT-Edit设计了一套关键机制:深度同步文本注入。
其本质是让文本语义信息与3D空间特征,在模型处理的多个层级中持续、同步地进行融合。传统方法往往仅在网络前端注入一次文本信息,而VGGT-Edit则在多个关键层反复融合文本语义。这使得模型在形成3D表示的整个过程中,始终能明确:
- 当前应修改哪个空间区域;
- 修改的具体目标为何;
- 目标在3D空间中的确切位置。
同时,团队还设计了一套视角重要性加权策略。因为在多视角数据中,并非所有视角都同等可靠——有些视角可能被遮挡,有些仅能看到物体局部。VGGT-Edit能自动评估并为更清晰、更完整的视角赋予更高权重,从而使最终的多视角编辑结果更加稳定一致。
专为“编辑”任务设计的核心模块
除整体框架创新外,VGGT-Edit还包含一个至关重要的组成部分——一个专门为3D编辑任务定制的编辑头。
团队发现,对于VGGT这类原生用于重建的模型,其输出头更专注于“如何精准还原场景”。但3D编辑的核心需求截然不同,它需要解决的是:如何在保持整体场景稳定的前提下,精准且一致地修改局部区域。
因此,VGGT-Edit额外引入了一个独立的编辑分支,专门用于预测场景中需要发生的局部变化。这个编辑头直接作用于模型的3D表示空间,并输出对应的残差场。本质上,它学习的是:
- 哪些区域应保持原状;
- 哪些区域是编辑目标;
- 编辑后如何确保所有视角的结果一致。
相比直接重新生成整个场景,这种“外科手术式”的局部修改不仅结果更稳定,计算效率也大幅提升。这正是让VGGT等快速重建模型获得实用化编辑能力的关键一步。
十万级数据集:专为训练“3D编辑”模型打造
为有效训练VGGT-Edit,团队构建了一个全新的、规模近10万样本的3D编辑数据集——DeltaScene。它覆盖了客厅、办公室、住宅、商业空间等多种室内场景类型。

△ DeltaScene数据集示例
更关键的是,其数据生成流程实现了高度自动化。研究团队利用Qwen3.5-Plus、SAM3、Qwen-Image-Editing-Max等一系列先进模型,自动完成编辑指令生成、目标物体识别、多视角编辑模拟,并经过严格的3D一致性过滤,最终得到真正满足“多视角几何一致”要求的高质量训练数据。

△ 自动化数据生成与过滤流程
对于原生3D编辑任务而言,这一步至关重要。模型需要学习的,不仅是图像层面的像素变化,更是同一条编辑指令如何在所有不同视角下,引发协调、一致的3D空间变化。
3D编辑首次逼近实时交互门槛
实验结果表明,这条“原生3D编辑”的技术路线是行之有效的。
在DeltaScene测试集上,VGGT-Edit在语义一致性、多视角稳定性和推理速度这三个核心评估维度上,均超越了现有主流方法。
尤其在添加家具、调整物体位置、修改材质属性等复杂编辑任务中,许多传统方法产生的输出仍带有明显的“贴图感”和几何错位,而VGGT-Edit生成的结果,则更接近一个真实、稳固的3D空间。

△ VGGT-Edit与其他方法的编辑效果对比
速度的提升更为关键。根据论文数据,VGGT-Edit完成单次编辑仅需大约5秒。相比于那些需要长时间迭代优化的传统方法,最高实现了120倍的加速。这意味着,3D内容编辑首次真正逼近了“实时交互”的体验门槛。
对于机器人实时环境重构、数字孪生更新、AR/VR内容创作等领域而言,这种速度的飞跃意义重大。只有当编辑操作足够迅捷,3D世界才能真正从一个静态的“观看对象”,转变为一个可以实时、动态操作的“交互空间”。

△ 快速编辑能力开启实时交互新可能
模型开始理解“空间变化”的本质
论文中还有一个颇具启发性的发现。研究人员输入了一条模型在训练中从未见过的指令:“将中间那把椅子顺时针旋转90度。”
结果,模型依然成功地完成了编辑任务。

△ 对未见指令(旋转)的泛化编辑能力
这表明,VGGT-Edit所学到的,并非简单的编辑模板匹配,而是开始真正理解文本语义如何映射到3D空间中的几何与属性变化。这种对“空间变化”本身的泛化理解能力,可能比“生成一个静态3D场景”更为重要。
因为对于未来的空间智能而言,最核心的能力或许不在于“创造一个世界”,而在于能否像人类一样,对这个已存在的世界进行自由、稳定、实时的感知与修改。VGGT-Edit,正将我们向这一目标推进了一步。
论文链接:https://arxiv.org/abs/2605.15186
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
修Bug被Gemini追删代码致宕机修复报告现编
最近,一起堪称“教科书级别”的AI Agent IDE翻车事件在开发者社区引发热议。这起事故值得所有依赖AI编程工具的开发者,尤其是那些已经在生产环境中对AI Agent 授予较高权限的团队,进行深刻反思。 简单回顾:5月26日,一位开发者要求Gemini 3 5(运行在Agent IDE环境中)修
Notion AI运营指南:自动归纳用户反馈
其实,想在 Notion 中高效搞定用户反馈的自动归纳,并不复杂。下面这四种 AI 方法,基本覆盖了从单条处理到全局分析的常见场景。 如果你也在用 Notion 收集用户反馈——无论是问卷、邮件、客服记录,还是社群发言——但总觉得信息碎片化严重,难以提炼共性问题和核心诉求,那很可能是因为缺少一套结构
AI给出的答案为何总不符期望?原因解析
大模型能力强大,但提问方式不当会导致结果不理想。核心在于精准提问,通过角色设定、背景介绍、明确任务、实现路径和输出要求这五个关键步骤逐步细化问题,才能大幅提升AI回答的质量和精准度。
Anthropic新AI聊天机器人模型声称在多项测试中击败OpenAI GPT-4
2024年3月5日,人工智能领域迎来了一位重要参与者——由OpenAI前员工创立的Anthropic公司正式推出了Claude 3系列模型。这次发布极具分量:新模型不仅在性能上与Google和OpenAI的顶级产品并驾齐驱,部分指标甚至实现超越。要理解此次升级的真正价值,先关注几个关键变化。首先是多
Trae对Deno与Bun运行时的AI代码补全支持程度全面详解
如果你在使用 Trae 进行 AI 代码补全时发现,它对 Deno 或 Bun 运行时的提示不够精准——例如类型定义缺失、API 无法正确识别——那很可能不是代码本身有误,而是 Trae 的底层配置尚未适配。简而言之,Trae 对于非 Node js 运行时的标准库支持尚未实现“开箱即用”。下面我们
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

