当前位置: 首页
AI资讯
5秒3D场景编辑 北大港中文等推VGGT-Edit 120倍加速

5秒3D场景编辑 北大港中文等推VGGT-Edit 120倍加速

热心网友 时间:2026-05-28
转载
# 3D世界已能“看懂”,但尚未学会“修改” 从NeRF到3D Gaussian Splatting,再到VGGT、π³等前馈式3D重建模型,该领域的推进速度显著加快——仅需数张图片,就能在短短几秒内重建出完整的3D场景。 然而,技术瓶颈也随之凸显。这些模型虽然具备理解三维空间的能力,却仍无法直接修改三维世界。你可以让模型重建一个房间,但很难真正下达指令:将椅子移到窗边,删除中间那把椅子,把灰色皮沙发换成白色长毛沙发。 更棘手的是,一旦涉及复杂编辑,现有方案往往迅速失效——某些视角里椅子消失了,换个视角椅子又再次出现;明明未修改的背景,也跟着一起变形。 为攻克这一难题,来自**北京大学**、**香港中文大学**、**上海AI Lab**、**NTU**等机构的研究团队,提出了一套原生3D编辑框架:**VGGT-Edit**。 核心宗旨只有一个—— **不再绕回2D,而是直接在3D空间内完成编辑。** 在DeltaScene测试集上,VGGT-Edit在语义一致性、多视角稳定性、推理速度三个维度均超越现有方法,单次编辑仅需约**5秒**,最高实现**120倍**加速。 ## 问题根源始终在于2D 目前大多数3D编辑方法,本质上仍是“2D思维”——先将场景拆解成多张2D图片,逐一编辑,再重新拼接为3D。 但由于每个视角独立处理,极易出现: - 一个视角里椅子已被删除; - 换个角度椅子又再次现身; - 背景区域随之漂移; - 物体边缘产生重影和闪烁。 ![3D编辑方法的比较](http://img.318050.com/uploads/20260528/17799423466a17c3caa6238924373986.webp) 许多结果更像是“在不同角度生硬拼贴出的图像”,而非真正稳定一致的3D空间。 对于机器人、AR/VR、空间智能等场景,这几乎是致命问题——这些领域真正需要的,不是“某一个视角看起来正确”,而是整个3D世界始终稳定且一致。 ## 原生3D编辑,从概念迈向实用 VGGT-Edit的核心思路十分直接:既然问题源于2D,那就不要再绕回2D。 整个框架建立在VGGT-Like前馈式重建模型之上,继承了其快速、高效的3D表示能力。但巧妙之处在于,团队并未选择重新生成整个场景,而是提出了一种精妙机制: **残差场预测(Residual Field Prediction)。** ![VGGT-Edit技术概览](http://img.318050.com/uploads/20260528/17799423476a17c3cb5016e030014792.webp) 打个比方:模型先保留原始场景稳定的3D结构,然后只学习“哪些区域需要变化”,例如: - 椅子向右移动; - 沙发材质发生改变; - 删除某个物体; - 新增一件家具。 这些变化都被表示为:**新场景 = 原场景 + 局部残差变化** 这一设计有一个显著优势——由于大部分区域本就不需要变化,模型无需重新“生成整个世界”,只需修改局部区域。结果就是未改动的背景保持高度稳定。 这也是VGGT-Edit与众多现有方案最明显的区别之一。 ## 文本语义,首次真正“对齐”3D空间 研究团队发现,如果仅简单地将一句文本输入模型,很容易出现这种情况——模型知道“你想改什么”,但不知道“该改哪里”。 为解决这一问题,VGGT-Edit设计了一套关键机制: **深度同步文本注入(Depth-Synchronized Text Injection)** 本质上可理解为:让文本语义与3D空间特征在同一个深度层级里持续同步。 传统方法通常只在前面注入一次文本信息,但VGGT-Edit会在多个关键层持续融合文本语义。这样一来,在整个3D生成过程中,模型始终清楚: - 当前应修改哪个区域; - 修改目标是什么; - 空间位置在哪里。 与此同时,团队还专门设计了一套“**视角重要性加权**”——因为并非所有视角都同样可靠,有些角度可能被遮挡,有些视角只能看到半个物体。 VGGT-Edit会自动判断哪个视角更值得信赖,最终让多视角编辑结果更加稳定。 ## 一个真正面向“3D编辑”的编辑头 除整体框架外,VGGT-Edit还有一个关键组件——**专门面向3D编辑任务设计的编辑头**。 研究团队发现,对于VGGT-Like模型而言,原有的重建Head更关注“如何恢复场景”,但3D编辑真正解决的问题是:**如何在保持整体稳定的前提下,仅修改局部区域。** 因此,VGGT-Edit额外设计了一套编辑分支,专门预测场景中的局部变化。 该编辑Head直接作用于3D表示空间,并输出对应的残差场变化。本质上,它学习的是: - 哪些区域应保持不变; - 哪些区域需要被编辑; - 编辑后如何保持多视角一致性。 相比直接重新生成整个场景,这种方式更稳定、更高效——这也是让VGGT-Like前馈重建模型具备编辑能力的关键一步。 ## 一个10万规模的数据集,专门训练“3D编辑” 为了训练VGGT-Edit,团队专门构建了一个全新的3D编辑数据集**DeltaScene**,规模接近10万组,涵盖客厅、办公室、住宅、商业空间等多种场景。 ![DeltaScene数据集概述](http://img.318050.com/uploads/20260528/17799423476a17c3cbc2fba608444704.webp) 更关键的是,整个数据生成流程高度自动化。 团队借助Qwen3.5-Plus、SAM3、Qwen-Image-Editing-Max,自动完成编辑指令生成、目标识别、多视角编辑、3D一致性过滤,最终得到真正满足“多视角几何一致”的训练数据。 ![DeltaScene数据构造流程](http://img.318050.com/uploads/20260528/17799423486a17c3cc40295461231689.webp) 对于原生3D编辑而言,这一步至关重要——模型真正需要学习的,不只是“图像变化”,而是同一编辑在不同视角下如何始终保持空间一致。 ## 3D编辑,首次接近实时交互 从结果来看,这条路线确实有效。 在DeltaScene测试集上,VGGT-Edit在语义一致性、多视角稳定性、推理速度三个维度均超越现有方法。 尤其是在添加家具、调整位置、修改材质等复杂任务中,许多传统方法仍会出现明显的“贴图感”和几何漂移,但VGGT-Edit生成的结果明显更像一个真实稳定的3D空间。 ![不同3D编辑任务的定性比较](http://img.318050.com/uploads/20260528/17799423486a17c3ccd84f8581215128.webp) 更关键的是速度——论文中,VGGT-Edit单次编辑仅需约**5秒**,相比许多需要长时间优化的传统方法,最高可实现**120倍**加速。 这意味着3D编辑首次真正接近实时交互。 对于机器人、数字孪生、AR/VR等方向来说,这种变化意义重大——只有当编辑速度足够快,3D世界才真正可能变成“可交互”的世界。 ![在DeltaScene数据集上的定量结果](http://img.318050.com/uploads/20260528/17799423496a17c3cd8d661037223490.webp) ## 模型开始真正理解“空间变化” 论文中还有一个非常有趣的实验。研究人员输入了一条训练中从未出现过的指令——“将中间椅子顺时针旋转90度。” 结果模型依然成功完成了编辑。 ![对未见过的指令进行泛化](http://img.318050.com/uploads/20260528/17799423496a17c3cdee95d701864162.webp) 这说明VGGT-Edit学到的,并不只是固定模板——它真正开始理解文本语义如何映射到3D空间变化。 而这,或许比“会生成3D”本身更重要。因为对于空间智能来说,未来真正关键的能力,也许不是“生成一个世界”,而是能否像人一样,自由、稳定、实时地修改这个世界。 VGGT-Edit,正在将这件事推进一步。 *论文链接:https://arxiv.org/abs/2605.15186*
来源:https://www.aitntnews.com/newDetail.html?newId=25571

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
修Bug被Gemini追删代码致宕机修复报告现编

修Bug被Gemini追删代码致宕机修复报告现编

最近,一起堪称“教科书级别”的AI Agent IDE翻车事件在开发者社区引发热议。这起事故值得所有依赖AI编程工具的开发者,尤其是那些已经在生产环境中对AI Agent 授予较高权限的团队,进行深刻反思。 简单回顾:5月26日,一位开发者要求Gemini 3 5(运行在Agent IDE环境中)修

时间:2026-05-28 22:58
Notion AI运营指南:自动归纳用户反馈

Notion AI运营指南:自动归纳用户反馈

其实,想在 Notion 中高效搞定用户反馈的自动归纳,并不复杂。下面这四种 AI 方法,基本覆盖了从单条处理到全局分析的常见场景。 如果你也在用 Notion 收集用户反馈——无论是问卷、邮件、客服记录,还是社群发言——但总觉得信息碎片化严重,难以提炼共性问题和核心诉求,那很可能是因为缺少一套结构

时间:2026-05-28 22:54
AI给出的答案为何总不符期望?原因解析

AI给出的答案为何总不符期望?原因解析

大模型能力强大,但提问方式不当会导致结果不理想。核心在于精准提问,通过角色设定、背景介绍、明确任务、实现路径和输出要求这五个关键步骤逐步细化问题,才能大幅提升AI回答的质量和精准度。

时间:2026-05-28 22:54
Anthropic新AI聊天机器人模型声称在多项测试中击败OpenAI GPT-4

Anthropic新AI聊天机器人模型声称在多项测试中击败OpenAI GPT-4

2024年3月5日,人工智能领域迎来了一位重要参与者——由OpenAI前员工创立的Anthropic公司正式推出了Claude 3系列模型。这次发布极具分量:新模型不仅在性能上与Google和OpenAI的顶级产品并驾齐驱,部分指标甚至实现超越。要理解此次升级的真正价值,先关注几个关键变化。首先是多

时间:2026-05-28 22:53
Trae对Deno与Bun运行时的AI代码补全支持程度全面详解

Trae对Deno与Bun运行时的AI代码补全支持程度全面详解

如果你在使用 Trae 进行 AI 代码补全时发现,它对 Deno 或 Bun 运行时的提示不够精准——例如类型定义缺失、API 无法正确识别——那很可能不是代码本身有误,而是 Trae 的底层配置尚未适配。简而言之,Trae 对于非 Node js 运行时的标准库支持尚未实现“开箱即用”。下面我们

时间:2026-05-28 22:52
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程