北大港中文与上海AI Lab联合发布VGGT-Edit 3D场景编辑工具120倍速
3D生成技术已经能够“看见”世界,但距离“修改”世界仍有差距——这正是当前领域面临的核心挑战。

从NeRF到3D Gaussian Splatting,再到VGGT、π³等前馈式3D重建模型,技术迭代日新月异。如今,仅凭几张图片,即可在数秒内构建出完整的3D场景。
然而,瓶颈也随之显现。现有模型虽能理解三维结构,却难以执行精准的编辑指令。例如,重建一个房间后,用户希望“将椅子移至窗边”、“移除中间的椅子”或“将灰色皮沙发更换为白色长毛款式”,这些操作仍充满挑战。
更棘手的是,复杂编辑常导致模型崩溃:物体在不同视角下时隐时现,未修改的背景区域发生畸变,一致性难以维持。
为攻克此难题,来自北京大学、香港中文大学、上海人工智能实验室、南洋理工大学等机构的研究团队,联合推出了原生3D编辑框架:VGGT-Edit。
其核心思路直击要害:摒弃迂回的2D编辑路径,直接在3D空间内完成修改。
在DeltaScene测试集上,VGGT-Edit在语义一致性、多视角稳定性与推理速度三大指标上均超越现有方案,单次编辑耗时仅约5秒,最高可实现120倍的速度提升。
症结所在:传统2D编辑思维的局限
当前主流的3D编辑方法,本质上仍未脱离“2D思维”:将场景分解为多个2D视图,分别编辑后再试图融合回3D。
由于各视角独立处理,不可避免地引发一系列问题:
- 物体在某一视角被删除,另一视角却依然存在;
- 背景区域发生非预期的位移或变形;
- 物体边缘出现重影、闪烁等伪影。
最终结果往往像是“多张硬性合成的图片”,而非一个稳定、连贯的三维空间。
这对于机器人导航、增强现实/虚拟现实(AR/VR)、空间智能等应用而言是致命缺陷——它们需要的是整个3D世界在所有角度都保持逻辑一致,而非仅某个视角正确。
迈向实用:原生3D编辑框架的突破
VGGT-Edit的设计哲学非常明确:既然问题源于2D转换,便应彻底转向原生3D编辑。
该框架基于VGGT-Like前馈重建模型构建,继承了其高效、快速的3D表示能力。但创新之处在于,团队并未选择全场景重新生成,而是引入了一种巧妙的残差场预测(Residual Field Prediction)机制。
简而言之,模型首先保留原始场景稳定的三维结构,仅学习需要发生变化的局部区域,例如:
- 物体的位移调整;
- 材质或颜色的替换;
- 特定物体的删除或新增。
这一过程可概括为一个简洁公式:新场景 = 原场景 + 局部残差变化。
该设计的显著优势在于:由于大部分区域无需改动,模型无需重新生成整个场景,仅聚焦于局部修改。因此,未被编辑的背景区域能保持高度稳定,这是VGGT-Edit与许多传统方法最直观的区别。
语义对齐:文本指令与3D空间的深度耦合
研究团队发现,若仅将文本指令简单输入模型,常导致模型理解“要改什么”,却无法精准定位“该改哪里”。
为此,VGGT-Edit设计了一套深度同步文本注入(Depth-Synchronized Text Injection)机制。
其本质是让文本语义信息与3D空间特征在相同的深度层级上持续对齐与融合。
不同于传统方法仅在前期注入一次文本,VGGT-Edit在多个关键网络层持续融合语义信息,确保模型在整个生成过程中始终明确:
- 当前应修改哪个空间区域;
- 修改的具体目标是什么;
- 该区域在三维空间中的确切位置。
此外,团队还设计了视角重要性加权策略。由于不同视角的可靠度不同(如存在遮挡或局部可见),模型能自动评估各视角的可信度,从而生成更稳定、一致的多视角编辑结果。
专用架构:为3D编辑量身定制的编辑头
除了整体框架,VGGT-Edit另一个核心组件是专门为3D编辑任务设计的编辑头(Editing Head)。
研究发现,VGGT-Like模型原有的重建头更侧重于“如何复原场景”,而3D编辑的核心需求是:如何在保持全局稳定的前提下,精准修改局部。
因此,VGGT-Edit额外引入了一个编辑分支,专门预测场景中的局部变化。该编辑头直接作用于3D表示空间,并输出对应的残差场。本质上,它学习的是:
- 哪些区域应保持原状;
- 哪些区域需执行编辑;
- 编辑后如何保证多视角一致性。
相比全场景重生成,这种定向修改的方式更稳定、更高效,也是让前馈式重建模型获得强大编辑能力的关键一步。
数据驱动:专为3D编辑构建的大规模数据集
为训练VGGT-Edit,团队构建了全新的3D编辑数据集DeltaScene,规模近10万组,覆盖客厅、办公室、住宅、商业空间等多种场景。
更重要的是,数据生成流程实现了高度自动化。利用Qwen3.5-Plus、SAM3、Qwen-Image-Editing-Max等工具,自动完成编辑指令生成、目标识别、多视角编辑与3D一致性过滤,最终产出真正满足“多视角几何一致”要求的高质量训练数据。
对于原生3D编辑而言,这一步至关重要——模型需要学习的不仅是“图像层面的变化”,更是同一编辑指令在不同视角下如何始终保持三维空间的一致性。
速度革命:3D编辑迈入近实时交互时代
实验结果验证了该路径的有效性。在DeltaScene测试集上,VGGT-Edit在语义一致性、多视角稳定性与推理速度上均领先现有方法。
尤其在添加家具、调整物体位置、修改材质等复杂任务中,传统方法常产生明显的“贴图感”与几何漂移,而VGGT-Edit的结果则更接近真实、稳定的三维空间。
速度提升尤为关键:论文显示,VGGT-Edit单次编辑仅需约5秒,相比依赖长时间优化的传统方法,最高可实现120倍加速。
这意味着3D编辑首次真正接近实时交互。对于机器人操作、数字孪生、AR/VR等领域,这一进展意义重大——只有当编辑速度足够快,3D世界才能真正成为可实时操作与交互的空间。
理解空间:模型学会泛化编辑能力
论文中一项有趣实验展示了模型的泛化能力。研究人员输入了一条训练中未出现的指令——“将中间椅子顺时针旋转90度”,模型依然成功完成了编辑。
这表明VGGT-Edit学到的并非固定模板,而是开始真正理解文本语义如何映射到三维空间的变化。
这种能力或许比“生成3D场景”本身更为重要。对于空间智能的未来,核心能力或许不在于“创造一个世界”,而在于能否像人类一样,自由、稳定、实时地修改与塑造这个世界。VGGT-Edit,正将这一愿景向前推进了一步。
论文链接:https://arxiv.org/abs/2605.15186
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
修Bug被Gemini追删代码致宕机修复报告现编
最近,一起堪称“教科书级别”的AI Agent IDE翻车事件在开发者社区引发热议。这起事故值得所有依赖AI编程工具的开发者,尤其是那些已经在生产环境中对AI Agent 授予较高权限的团队,进行深刻反思。 简单回顾:5月26日,一位开发者要求Gemini 3 5(运行在Agent IDE环境中)修
Notion AI运营指南:自动归纳用户反馈
其实,想在 Notion 中高效搞定用户反馈的自动归纳,并不复杂。下面这四种 AI 方法,基本覆盖了从单条处理到全局分析的常见场景。 如果你也在用 Notion 收集用户反馈——无论是问卷、邮件、客服记录,还是社群发言——但总觉得信息碎片化严重,难以提炼共性问题和核心诉求,那很可能是因为缺少一套结构
AI给出的答案为何总不符期望?原因解析
大模型能力强大,但提问方式不当会导致结果不理想。核心在于精准提问,通过角色设定、背景介绍、明确任务、实现路径和输出要求这五个关键步骤逐步细化问题,才能大幅提升AI回答的质量和精准度。
Anthropic新AI聊天机器人模型声称在多项测试中击败OpenAI GPT-4
2024年3月5日,人工智能领域迎来了一位重要参与者——由OpenAI前员工创立的Anthropic公司正式推出了Claude 3系列模型。这次发布极具分量:新模型不仅在性能上与Google和OpenAI的顶级产品并驾齐驱,部分指标甚至实现超越。要理解此次升级的真正价值,先关注几个关键变化。首先是多
Trae对Deno与Bun运行时的AI代码补全支持程度全面详解
如果你在使用 Trae 进行 AI 代码补全时发现,它对 Deno 或 Bun 运行时的提示不够精准——例如类型定义缺失、API 无法正确识别——那很可能不是代码本身有误,而是 Trae 的底层配置尚未适配。简而言之,Trae 对于非 Node js 运行时的标准库支持尚未实现“开箱即用”。下面我们
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

