北大港中文与上海AI Lab联合发布VGGT-Edit 3D场景编辑工具120倍速

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

北大港中文与上海AI Lab联合发布VGGT-Edit 3D场景编辑工具120倍速

热心网友时间：2026-05-28

转载

3D生成技术已经能够“看见”世界，但距离“修改”世界仍有差距——这正是当前领域面临的核心挑战。

5秒完成3D场景编辑，北大&港中文&上海AILab搞出VGGT-Edit，120倍加速太炸了

从NeRF到3D Gaussian Splatting，再到VGGT、π³等前馈式3D重建模型，技术迭代日新月异。如今，仅凭几张图片，即可在数秒内构建出完整的3D场景。

然而，瓶颈也随之显现。现有模型虽能理解三维结构，却难以执行精准的编辑指令。例如，重建一个房间后，用户希望“将椅子移至窗边”、“移除中间的椅子”或“将灰色皮沙发更换为白色长毛款式”，这些操作仍充满挑战。

更棘手的是，复杂编辑常导致模型崩溃：物体在不同视角下时隐时现，未修改的背景区域发生畸变，一致性难以维持。

为攻克此难题，来自北京大学、香港中文大学、上海人工智能实验室、南洋理工大学等机构的研究团队，联合推出了原生3D编辑框架：VGGT-Edit。

其核心思路直击要害：摒弃迂回的2D编辑路径，直接在3D空间内完成修改。

在DeltaScene测试集上，VGGT-Edit在语义一致性、多视角稳定性与推理速度三大指标上均超越现有方案，单次编辑耗时仅约5秒，最高可实现120倍的速度提升。

症结所在：传统2D编辑思维的局限

当前主流的3D编辑方法，本质上仍未脱离“2D思维”：将场景分解为多个2D视图，分别编辑后再试图融合回3D。

由于各视角独立处理，不可避免地引发一系列问题：

物体在某一视角被删除，另一视角却依然存在；
背景区域发生非预期的位移或变形；
物体边缘出现重影、闪烁等伪影。

最终结果往往像是“多张硬性合成的图片”，而非一个稳定、连贯的三维空间。

这对于机器人导航、增强现实/虚拟现实（AR/VR）、空间智能等应用而言是致命缺陷——它们需要的是整个3D世界在所有角度都保持逻辑一致，而非仅某个视角正确。

迈向实用：原生3D编辑框架的突破

VGGT-Edit的设计哲学非常明确：既然问题源于2D转换，便应彻底转向原生3D编辑。

该框架基于VGGT-Like前馈重建模型构建，继承了其高效、快速的3D表示能力。但创新之处在于，团队并未选择全场景重新生成，而是引入了一种巧妙的残差场预测（Residual Field Prediction）机制。

简而言之，模型首先保留原始场景稳定的三维结构，仅学习需要发生变化的局部区域，例如：

物体的位移调整；
材质或颜色的替换；
特定物体的删除或新增。

这一过程可概括为一个简洁公式：新场景 = 原场景 + 局部残差变化。

该设计的显著优势在于：由于大部分区域无需改动，模型无需重新生成整个场景，仅聚焦于局部修改。因此，未被编辑的背景区域能保持高度稳定，这是VGGT-Edit与许多传统方法最直观的区别。

语义对齐：文本指令与3D空间的深度耦合

研究团队发现，若仅将文本指令简单输入模型，常导致模型理解“要改什么”，却无法精准定位“该改哪里”。

为此，VGGT-Edit设计了一套深度同步文本注入（Depth-Synchronized Text Injection）机制。

其本质是让文本语义信息与3D空间特征在相同的深度层级上持续对齐与融合。

不同于传统方法仅在前期注入一次文本，VGGT-Edit在多个关键网络层持续融合语义信息，确保模型在整个生成过程中始终明确：

当前应修改哪个空间区域；
修改的具体目标是什么；
该区域在三维空间中的确切位置。

此外，团队还设计了视角重要性加权策略。由于不同视角的可靠度不同（如存在遮挡或局部可见），模型能自动评估各视角的可信度，从而生成更稳定、一致的多视角编辑结果。

专用架构：为3D编辑量身定制的编辑头

除了整体框架，VGGT-Edit另一个核心组件是专门为3D编辑任务设计的编辑头（Editing Head）。

研究发现，VGGT-Like模型原有的重建头更侧重于“如何复原场景”，而3D编辑的核心需求是：如何在保持全局稳定的前提下，精准修改局部。

因此，VGGT-Edit额外引入了一个编辑分支，专门预测场景中的局部变化。该编辑头直接作用于3D表示空间，并输出对应的残差场。本质上，它学习的是：

哪些区域应保持原状；
哪些区域需执行编辑；
编辑后如何保证多视角一致性。

相比全场景重生成，这种定向修改的方式更稳定、更高效，也是让前馈式重建模型获得强大编辑能力的关键一步。

数据驱动：专为3D编辑构建的大规模数据集

为训练VGGT-Edit，团队构建了全新的3D编辑数据集DeltaScene，规模近10万组，覆盖客厅、办公室、住宅、商业空间等多种场景。

更重要的是，数据生成流程实现了高度自动化。利用Qwen3.5-Plus、SAM3、Qwen-Image-Editing-Max等工具，自动完成编辑指令生成、目标识别、多视角编辑与3D一致性过滤，最终产出真正满足“多视角几何一致”要求的高质量训练数据。

对于原生3D编辑而言，这一步至关重要——模型需要学习的不仅是“图像层面的变化”，更是同一编辑指令在不同视角下如何始终保持三维空间的一致性。

速度革命：3D编辑迈入近实时交互时代

实验结果验证了该路径的有效性。在DeltaScene测试集上，VGGT-Edit在语义一致性、多视角稳定性与推理速度上均领先现有方法。

尤其在添加家具、调整物体位置、修改材质等复杂任务中，传统方法常产生明显的“贴图感”与几何漂移，而VGGT-Edit的结果则更接近真实、稳定的三维空间。

速度提升尤为关键：论文显示，VGGT-Edit单次编辑仅需约5秒，相比依赖长时间优化的传统方法，最高可实现120倍加速。

这意味着3D编辑首次真正接近实时交互。对于机器人操作、数字孪生、AR/VR等领域，这一进展意义重大——只有当编辑速度足够快，3D世界才能真正成为可实时操作与交互的空间。

理解空间：模型学会泛化编辑能力

论文中一项有趣实验展示了模型的泛化能力。研究人员输入了一条训练中未出现的指令——“将中间椅子顺时针旋转90度”，模型依然成功完成了编辑。

这表明VGGT-Edit学到的并非固定模板，而是开始真正理解文本语义如何映射到三维空间的变化。

这种能力或许比“生成3D场景”本身更为重要。对于空间智能的未来，核心能力或许不在于“创造一个世界”，而在于能否像人类一样，自由、稳定、实时地修改与塑造这个世界。VGGT-Edit，正将这一愿景向前推进了一步。

论文链接：https://arxiv.org/abs/2605.15186

来源:https://www.qbitai.com/2026/05/425870.html

上一篇：企业级AI Agent选型指南 MCP CLI与Skills定位选择及最佳实践

下一篇：昆仑芯超节点产品发布大幅提升大模型训练与推理性能

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

热门专题

刀塔传奇破解版无限钻石下载大全

洛克王国正式正版手游下载安装大全

思美人手游下载专区

好玩的阿拉德之怒游戏下载合集

不思议迷宫手游下载合集

百宝袋汉化组游戏最新合集

jsk游戏合集30款游戏大全

宾果消消消原版下载大全

日榜
周榜
月榜

选技大乱斗兑换码大全与永久有效领取方法

Niko直播分析Falcons战队Major备战关键在图池与心态

龙魂旅人宙斯强度解析实战阵容搭配与角色评测指南

支付宝服务3亿笔AI智能体支付 xAI开放Grok Build测试

瑞典CS女选手7licious宣布退役告别赛场后内心空虚

Steam Deck OLED价格飙升关键部件短缺致成本上涨

七界梦谭开发商是谁游戏制作团队背景与成员揭秘

Valve掌机Steam Deck上市两年半后价格飙升40%

2026年VCT CN伦敦大师赛赛制规则详解

古天乐出道前曾坐牢后逆袭成为慈善天王

洛克王国绿色命运之钥获取攻略与详细步骤

洛克王国VIP扭蛋机具体位置与获取方法

光遇2026年520发布会爆料内容全解析

洛克王国S2赛季异色精灵盒子查看与使用指南

洛克王国城堡守护者具体位置与寻找攻略

星辰变归来神兽获取攻略新手快速入手指南

洛克王国宠物医院地址查询与位置导航指南

星辰变归来时装系统详解新手入门穿搭攻略

阴阳师2026年520兑换码领取方法与最新福利一览

星辰变归来境界系统详解与修炼攻略

漫蛙漫画防走失网页链接

《问剑长生》新大区预创角开启，是什么福利让玩家直呼夯爆了？

紧急！Axios 被投毒，3亿项目受到影响！教你怎么自查！

兆易创新2025年年营收92亿元，净利16亿元

TensorFlow - AI开发平台,AI开发框架

解决sql server2008注册表写入失败，vs2013核心功能安装失败

《九牧之野》S3乱世诡道主题服开启：4月18日上线，预备盟奖励与开服福利一文看懂

donk：对待季军赛的心态和决赛不一样，总之已经拿不到冠军了

iPhone 15耳机连接后音量小原因排查与解决

蛮荒领主手游测试资格获取方式蛮荒领主内测资格申请渠道与条件详解

相关攻略

2015-03-10 11:25

《炎龙骑士团2》详细全攻略

2015-03-10 11:05

《东吴霸王传2013》详细全关攻略

2021-08-04 13:30

《臭作》之100%全完整攻略

2015-03-10 11:22

《兰斯8》剧情攻略详细篇

2015-03-10 12:39

《英雄坛说》详细全攻略

2022-05-16 18:57

《造梦西游2：十殿阎罗篇》BOSS档案及掉落装备全介绍及攻略

2025-05-23 13:43

偷窃少女的教育方法全攻略

2025-05-23 14:01

无法抵挡小恶魔的诱惑攻略

热门教程

游戏攻略
安卓教程
苹果教程
电脑教程

Paralives首发销量充足支撑后续开发无需DLC 发布于 2026-05-28

即使在大幅涨价后 Steam Deck 玩家热情依旧再次售罄发布于 2026-05-28

闪烁之光星河鹊桥第35关图文攻略发布于 2026-05-28

奥德赛庄园好玩吗玩法简介与评测发布于 2026-05-28

依露希尔星晓术者强力角色培养推荐指南发布于 2026-05-28

闪烁之光皮肤副本通关攻略与技巧发布于 2026-05-28

闪烁之光皮肤副本第十一关通关技巧发布于 2026-05-28

闪烁之光皮肤副本第三关怎么通关详细攻略发布于 2026-05-28

遮天帝路争锋隐藏地图与新手开荒攻略发布于 2026-05-28

迷雾北境手游什么时候正式上线发布于 2026-05-28

英雄之时手游法师流新手玩法攻略完整版发布于 2026-05-28

镇魂街王者归来最新游戏下载与预约地址发布于 2026-05-28

铸兵之王最新版下载地址与获取指南发布于 2026-05-28

2026年无畏契约账号交易安全指南 5大交易平台对比选购发布于 2026-05-28

2026三国杀OL账号交易平台对比与避坑指南发布于 2026-05-28

2026火影忍者账号交易平台推荐与避坑指南发布于 2026-05-28

Windows 11 任务管理器查看 NPU 频率与 AI 硬件占用率教程发布于 2026-05-25

Linux系统修改默认网关命令与永久生效配置教程发布于 2026-05-25

麒麟系统开机自启动脚本设置方法详解发布于 2026-05-25

麒麟系统安装IntelliJ IDEA插件扩展开发功能发布于 2026-05-25

Windows 11 RP预览版25145发布及KB5089573更新日志详解发布于 2026-05-25

Windows 11 26H1预览版28000.2173更新日志KB5089570详解发布于 2026-05-25

Win11预览版26300.8493更新本地文件搜索排序优先发布于 2026-05-25

Win11预览版8521修复音频与通知问题发布于 2026-05-25

国产内存新架构突破30TB带宽实现自主供应链发布于 2026-05-11

Edge浏览器网页捕获功能使用教程截取全屏与区域截图详解发布于 2026-05-11

千度手机版官网免费入口手机端专用访问链接发布于 2026-05-11

ES文件浏览器复制文件内容到剪贴板详细步骤教程发布于 2026-05-11

如何设置鼠标连点器的固定点击间隔秒数发布于 2026-05-11

苹果iPhone 15截屏保存到相册的详细步骤教程发布于 2026-05-11

立升净水器滤芯更换方法与使用指南发布于 2026-05-11

ES文件浏览器如何设置默认打开应用详细图文教程发布于 2026-05-11

热门话题

魔术游戏下载-魔术游戏-2022热门的魔术小游戏大全

刀塔传奇破解版在哪下-刀塔传奇破解版无限钻石下载大全-刀塔传奇破解版内购破解版合集

饥荒下载免费中文版-饥荒下载破解版-饥荒正版全部版本下载合集

拉布布游戏下载-拉布布游戏合集-拉布布系列游戏大全合集

洛克王国手游正版下载-洛克王国正版手游下载安装大全-类似洛克王国的手机游戏推荐

神魔幻想单机游戏下载-神魔幻想单机游戏推荐-神魔幻想系列游戏下载合集

最受女生欢迎的游戏_女生玩的手游_思美人手游下载专区

疯狂越野系列游戏下载_疯狂越野全版本合集中文版下载

神庙逃亡2破解无限金币无限钻石下载-神庙逃亡2国际版破解大全-神庙逃亡2版本合集

北大港中文与上海AI Lab联合发布VGGT-Edit 3D场景编辑工具120倍速

症结所在：传统2D编辑思维的局限

迈向实用：原生3D编辑框架的突破

语义对齐：文本指令与3D空间的深度耦合

专用架构：为3D编辑量身定制的编辑头

数据驱动：专为3D编辑构建的大规模数据集

速度革命：3D编辑迈入近实时交互时代

理解空间：模型学会泛化编辑能力

修Bug被Gemini追删代码致宕机修复报告现编

Notion AI运营指南：自动归纳用户反馈

AI给出的答案为何总不符期望？原因解析

Anthropic新AI聊天机器人模型声称在多项测试中击败OpenAI GPT-4

Trae对Deno与Bun运行时的AI代码补全支持程度全面详解