当前位置: 首页
科技数码
浙大港科大联合突破AI三维场景视角智能选择技术

浙大港科大联合突破AI三维场景视角智能选择技术

热心网友 时间:2026-05-24
转载


2025年5月,一项由浙江大学、香港科技大学(含广州校区)、新疆大学、武汉轻工大学、天津大学及产业机构Vorynel合作完成的研究以预印本形式发布(论文编号:arXiv:2605.15597)。该研究聚焦于AI三维视觉学习的一个关键基础环节:如何为AI高效准备高质量的“视觉原材料”。

要让AI真正理解三维世界,离不开海量的图像、深度信息和相机位姿数据。然而,过去的研究往往更关注算法模型的改进,而将数据采集策略视为次要问题。这篇论文明确指出,拍摄视角的选择策略从根本上决定了AI学到的三维知识是否优质、准确且高效。为此,研究团队提出了一套名为COVER的创新方法,并构建了名为CM-EVS的全景图像数据集。理解这套系统,可以将其类比为一次追求效率与质量的房产拍摄任务。

一、为什么“随便拍”不行?——三维数据采集的常见陷阱

假设你是一名房产摄影师,需要为一套三居室拍摄一组能完整展示全貌的照片。一种做法是在每个房间猛拍几十张,另一种则是只在门口拍一张了事。前者会产生大量重复信息,浪费存储与计算资源;后者则必然遗漏关键细节,导致信息不完整。优秀的摄影师会思考:站在哪里能捕捉到最多的新内容?哪些角度是冗余的?哪些角度会因光线或遮挡导致画面失真?

AI进行3D视觉学习时,面临的是同样但规模更大的困境。研究发现,当前许多3D场景数据集普遍存在三类核心问题。首先是“密集轨迹重复”,即像拍摄视频一样缓慢移动镜头,导致相邻帧之间信息高度重叠,大量计算资源被浪费在描述同一面墙或角落。其次是“标准不统一”,不同数据集采用各自的拍摄规则、深度格式和坐标系,这好比用不同度量单位的菜谱做同一道菜,导致模型难以迁移和泛化。最后是“启发式选点不靠谱”,一些数据集采用简单规则(如每隔一米拍一张)来确定拍摄位置,这可能导致漏掉走廊拐角等关键区域,或在同一区域拍摄过多重叠照片。更严重的是会产生“深度矛盾”——同一物体从不同角度测得的距离数据不一致,让AI模型在学习时无所适从。

正因如此,即便是Matterport3D、ScanNet++、HM3D、Hypersim这些业内知名的3D数据集,也未能提供一个“简洁、可比较且几何一致”的全景训练接口。本研究将自身定位在3D资产(几何模型)与AI训练之间的“观测层”,其核心任务是将一个3D场景“翻译”成一组经过智能筛选的全景图像,确保在有限预算下,既不遗漏重要信息,也不产生冗余和矛盾。

二、什么是全景图像,为什么要用它?——360度场景理解的基石

普通照片如同从房间内朝一个方向看,视野有限。全景图像则采用“等距柱状投影”(ERP)方式,将某一点360度所有方向的视觉信息压缩进一张矩形图片中,类似于将地球仪展开成世界地图——尽管边缘存在变形,但信息是完整的。

这种格式对AI学习三维场景具有独特价值。一张ERP图像不仅包含颜色(RGB)信息,还同时囊括了每个方向的“真实距离”(即度量深度,单位为米)、以及相机的位置和朝向(即位姿)。这三种信息打包在一起,构成了一个丰富的“场景快照”,让AI不仅能识别物体,还能精确知晓物体的空间距离和观察者的位置。这种格式在全景深度估计、三维场景重建和360度场景生成等计算机视觉任务中尤为有用。

然而,拥有好的数据格式只是基础。如何智能地决定在哪些空间位置拍摄这些全景图,以最高效的方式覆盖场景,才是本研究要解决的核心问题。

三、COVER:一个懂得“查漏补缺”又能“避免矛盾”的智能选点方法

研究团队将这套方法命名为COVER,意为“覆盖”,其全称是“基于等距柱状投影深度变形的覆盖导向视角筛选”。这个名字揭示了其核心逻辑:选择那些能最大化场景覆盖、同时最小化深度数据自相矛盾的拍摄位置。

沿用房产摄影师的比喻:摄影师手握房子的3D模型和一份包含数百个候选位置的清单,任务是在有限的拍摄次数(例如25次)内,选出价值最高的25个位置。

COVER通过三个核心步骤的循环来实现这一目标。第一步是“累积已知信息”——每拍摄一张全景图,便将其深度信息转化为点云(即用密集点描述房间三维形状的地图)并存储。第二步是“预判新候选点的价值”——对于每个尚未拍摄的候选位置,COVER会进行快速的低分辨率模拟:将已积累的点云“投影”到该候选视角,计算其能看到多少“已记录内容”(历史可见区域),同时快速渲染该位置本身能看到什么(探针帧)。通过对比,可以识别出三类像素:已解释的像素(双方吻合)、全新的像素(候选点能看到而历史记录中没有的)、以及矛盾的像素(候选点测得的距离与历史记录差异超过阈值)。第三步是“打分、选最优、更新地图”——COVER使用一个简洁的公式为每个候选点评分:新像素的比例(越高越好)减去矛盾像素的比例乘以一个惩罚系数λ(默认值为0.35)。得分最高的位置胜出,随后进行高分辨率渲染,并将新观测到的点云加入地图,循环进入下一轮。

这里有一个关键设计:为何不对所有候选点都进行高分辨率渲染后再选择?答案是计算成本过高。一个典型场景可能有数千个候选点,若每次循环都进行高清渲染,计算量将是最终只渲染K张选定图像的100到1000倍。COVER采用低分辨率快速预判来替代,虽然会引入微小误差,但这种误差在理论上可被分析和控制。论文中的严格证明(引理1)指出,即使存在预判误差,COVER最终选出的K张图像所覆盖的场景内容,仍不低于理论最优覆盖量的(1-1/e)倍(约63%),再减去一个与误差及矛盾率相关的附加项。换言之,COVER的性能有数学保证。实验数据也证实了这一点:在31个Blender室内场景上测试,COVER的快速预判方法相比“全部高清预渲染”的精确方法,最终覆盖率仅损失8.1个百分点,但计算速度提升了133倍。

深度矛盾阈值δ被设定为场景包围盒对角线长度的0.5%,并根据不同数据源进行微调。λ=0.35这个默认值并非随意设定,而是经过系统实验验证的。团队对比了λ从0到1.0的8个取值,发现当λ=0时(即完全不惩罚矛盾),系统选点会高度集中在场景的某个偏僻角落,覆盖率不足20%;而当λ在0.1到0.5之间时,系统进入一个宽阔的稳定平台,覆盖率维持在37%到43%之间。λ=0.35位于此平台中部,是一个保守而稳健的选择。

此外,COVER还具备“自动停止”机制:当新增覆盖率收益连续两步低于1%时,便自动停止选点。这使得同一套方法能自适应处理不同规模的场景——小房间很快达到饱和,而大型开放式办公室则会拍摄更多张照片,而非对所有场景强制拍摄相同数量。

四、COVER的完整流程:从原始3D资产到标准全景数据

整个COVER流程分为三个阶段运行。第一阶段是“资产标准化”,负责将来自不同来源的3D场景(如Blender的.blend文件、3D扫描的点云.ply、仿真环境模型)统一转换到同一套坐标系和格式下。最终采用的世界坐标系为右手系(+X向右,+Y向上,+Z向前),相机坐标系遵循OpenCV惯例,位姿用四元数加位置表示,全景图采用标准的球面投影方式。

第二阶段是“候选点生成”,负责在3D场景中撒出一批备选拍摄位置,并通过一个包含28条光线(26个方向加2个垂直方向)的几何合法性检验来过滤不合理的位置。具体过滤规则包括:拒绝相机嵌入墙体或屋顶、相机过于贴近几何体内部、相机卡在角落(超过一半方向被近距墙体遮挡)、相机被完全封闭的小空间包围、相机离墙太近、相机视野内几乎看不到有效深度范围内的表面,以及相机处于狭窄缝隙末端。针对不同数据源,候选点的生成方式也有所差异。

第三阶段即前述的“预算内贪心选点”循环,这是COVER的核心算法。从一个被选为种子点的初始位置出发,反复执行“低分辨率评分→选择最高分→高分辨率渲染→更新点云地图”的循环,直至预算用尽或收益低于阈值。

除了适用于上述三个阶段的“策展适配器”,研究团队还为TartanGround和OB3D这两个数据源提供了“重编码适配器”。这两个来源本身已提供密集的轨迹式RGB-D-位姿序列,因此无需运行COVER选点,只需将其格式统一转换为CM-EVS的标准格式即可。

五、CM-EVS数据集:这批精挑细选的全景照片长什么样?

应用COVER方法处理所有来源后,便得到了CM-EVS数据集。这是一个包含多来源、统一格式、附带完整溯源日志的全景RGB-D-位姿数据集,专为3D视觉研究设计。

在数量上,其室内策展核心部分包含来自1275个场景的36373帧全景图像。具体分布为:Blender室内场景374个(13631帧),HM3D场景401个(14475帧),ScanNet++场景500个(8267帧)。户外扩展部分则来自TartanGround和OB3D。总计包含1350个场景单元,共822717帧。

每一帧图像都附带三种模态信息:全景RGB图像、米制度量深度图以及校准好的相机位姿。对于由COVER生成的室内帧,还额外提供了每一步的溯源日志,记录了覆盖收益、深度冲突率、综合评分及所有候选点信息。这意味着用户不仅获得了数据,还获得了数据生成过程的完整记录,可用于复现、诊断或替换其他选点策略重新实验,极大地提升了研究的可重复性和透明度。

场景类型多样性是CM-EVS的一大特点。研究团队将所有场景手动归类为13个统一的粗粒度房间类型,CM-EVS是对比的五个基准数据集中唯一覆盖全部13个类别的。其香农熵为3.10比特,与Matterport3D(3.15比特)和Hypersim(2.98比特)处于同一水平,表明其类别分布均衡。

低冗余度是CM-EVS最鲜明的特征。其室内场景每个场景的中位数帧数仅为25帧,而对比数据集如Hypersim、Matrix-Pano、360DVD、Matterport3D的每场景帧数约为100至168帧。CM-EVS的帧数仅为这些数据集的四分之一到七分之一,数据效率显著提升。具体案例显示,在一个开放式办公室场景中,仅用8帧(K=8)便覆盖了全部四个功能区;当K=30时,覆盖收益在大约第22步后便降至阈值以下,说明场景已被充分覆盖,继续拍摄只是浪费资源。

六、与现有方法的对比:COVER的优势在哪里体现?

研究团队在实验中系统对比了COVER与四种基线方法:随机选点、单视角探针、纯覆盖贪心(λ=0)以及纯低冲突选点。所有方法在同一批候选点及同一初始种子点上运行以确保公平。

在K=4的固定预算实验中,随机选点和单视角探针的覆盖率极低(分别为0.96%和0.21%);纯覆盖贪心达到10.55%的覆盖率但冲突率为1.93%;纯低冲突方法达到10.25%覆盖率且冲突率为1.64%;而COVER则达到10.32%覆盖率、1.70%冲突率。直观来看,COVER的覆盖率与纯覆盖贪心几乎持平(仅差0.23个百分点),但冲突率降低了12%,同时覆盖率又高于纯低冲突方法。这表明λ=0.35的惩罚项起到了“重新排序”的作用,在几乎不牺牲覆盖的前提下,有效筛选掉了高冲突的视角。

在K=30的更大预算实验中,跨三个数据源的测试结果显示,尽管不同来源的统计特性差异显著(如ScanNet++场景更小、覆盖率更高;HM3D因扫描噪声导致冲突率稍高),但同一套固定超参数在三个来源上均给出了稳定的运行结果,未出现性能崩溃的情况,证明了方法的鲁棒性和泛化能力。

七、这套方法的边界和未来计划

研究团队也坦诚指出了当前工作的若干局限。整个评估聚焦于“策展层”指标(覆盖率和深度冲突率),而非AI在下游任务(如全景深度估计、新视角合成)的实际表现提升。这是对工作边界的清晰界定:COVER和CM-EVS提供的是优化的原材料和筛选工具,至于用这些材料训练的AI模型是否更优,则需要后续实验验证。

此外,由于版权限制,HM3D和ScanNet++的帧图像需用户根据提供的适配器脚本在本地重新生成,这增加了使用门槛。户外全景帧也未经过COVER筛选,与室内策展帧不完全对等。

团队记录了50个“失败案例”,并将其归类为五种失败模式,如相机嵌入墙体、网格不完整导致深度图空洞、点云重建产生“幽灵”几何等。这些案例已被排除在公开发布的数据集外,但连同完整数据一起打包在专门的目录中,供研究者复现和分析,体现了研究的严谨性。

未来,团队计划推出v1.1版本,通过收紧过滤规则、新增质量排序字段、提供网格重建回退路径等方式改进系统。同时,计划将COVER扩展至动态场景,并基于发布的数据帧系统评估全景深度估计、新视角合成等下游任务。

归根结底,这项研究是对AI“视觉进食”方式的一次深度优化。过去,人们往往倾向于将海量照片塞给AI,或依靠简单规则随意挑选。而这项工作则深入探讨了“应该在何处拍摄、拍摄多少才足够、如何确保不同角度的深度数据不自相矛盾”这些根本问题。团队用数学证明了贪心选点的合理性,用实验验证了其在速度与质量间的平衡,并将选点过程的每一个细节都记录并公开,使得整个数据制作过程本身成为可审查、可复现的科研成果。这种态度,或许比数据集本身的规模更具价值。对于未来致力于全景场景理解、三维重建或空间智能的研究者而言,CM-EVS不仅是一个高质量的数据集,更是一套关于“如何智能地观察世界”的方法论框架。

Q&A

Q1:CM-EVS数据集包含哪些内容,和其他3D场景数据集有什么区别?

CM-EVS数据集包含来自1275个室内场景的36373帧全景图像,每帧同时提供360度彩色图、每像素方向的实际距离深度图和相机位姿,还有完整的选点溯源日志。与Matterport3D、ScanNet++等主流3D数据集相比,CM-EVS最大的优势在于其极高的数据效率:每个场景仅使用中位数25帧,比现有数据集少了4到7倍,但场景覆盖的完整性相当,且13种房间类型全部覆盖。每一帧的选取过程都有详细记录,透明度更高,为三维视觉研究和全景深度估计提供了更优质、更高效的训练数据。

Q2:COVER方法为什么要同时考虑“覆盖率”和“深度冲突”两个指标,只优化覆盖率不行吗?

仅优化覆盖率会导致选出的视点集中在场景的某个特定区域。实验表明,当λ=0(即不惩罚冲突)时,覆盖率仅为18%,性能反而下降。更重要的是,如果不惩罚深度冲突,不同视角对同一物体测量的距离会产生矛盾,这将导致AI在训练时学到自相矛盾的几何信息,最终损害模型质量,影响三维重建和新视角合成的精度。因此,平衡两者对于生成高质量、几何一致的三维训练数据至关重要。

Q3:COVER方法运行速度怎么样,能用在大规模数据处理上吗?

COVER采用低分辨率快速预判策略,显著提升了效率。在31个Blender室内场景的测试中,相比“对所有候选点全部高清渲染再选”的精确方法,COVER的速度提升了约133倍,而覆盖率仅损失约8个百分点,实现了速度与精度的良好平衡。处理整个1275个室内场景的数据分析脚本,在配备8块H100 GPU的服务器上仅需约13分钟即可完成,证明了其处理大规模三维数据的可行性和高效性,适合构建大型全景数据集。

来源:https://www.163.com/dy/article/KTIIQCUO0511DTVV.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
5月乘用车零售预计152万辆 新能源车销量达95万辆

5月乘用车零售预计152万辆 新能源车销量达95万辆

4月车市增长动能不足,狭义乘用车零售量同比环比双降。传统燃油车销量锐减,新能源车则基本持平,渗透率达61 3%。5月市场预计温和增长,受假期、车展及新车交付推动,走势或前高后低。头部厂商目标环比提升约10%,预计5月狭义乘用车零售约152万辆,新能源车零售约95万辆,渗透率有望升至62 5%。

时间:2026-05-24 18:42
无人机融资租赁模式降低应用门槛

无人机融资租赁模式降低应用门槛

载重无人机价格高昂阻碍市场推广。融资租赁模式可将高额购机成本转化为灵活运营支出,降低使用门槛。相关企业已签署协议,计划通过租赁拓展高层灭火、应急救援等民用场景。政策支持与资产特性使该模式在低空经济领域具备可行性,有望形成可复制的产融结合案例。

时间:2026-05-24 18:42
杂交水稻研究新进展:多项阶段性成果助力粮食安全

杂交水稻研究新进展:多项阶段性成果助力粮食安全

杂交水稻研究取得多项阶段性成果,涵盖关键基因挖掘、新品种选育及栽培技术优化。新杂交组合抗逆性增强,能更好适应复杂气候;同时高产与米质协同提升,口感营养指标优化。研究融合智能农业等技术,构建全产业链高效生产模式,为粮食安全与农业可持续发展提供科技支撑。

时间:2026-05-24 18:42
浙大港科大联合突破AI三维场景视角智能选择技术

浙大港科大联合突破AI三维场景视角智能选择技术

浙江大学等机构提出COVER方法,通过智能筛选拍摄位置来优化3D场景数据采集。该方法平衡覆盖率与深度数据一致性,并构建了低冗余的全景数据集CM-EVS。实验表明,COVER在提升数据效率的同时保证了质量,为AI的3D视觉学习提供了更优质的训练素材。

时间:2026-05-24 18:42
GPT制作PPT实测5分钟出稿质量不佳仍需人工优化

GPT制作PPT实测5分钟出稿质量不佳仍需人工优化

又一次深夜炸场,OpenAI 交出了可能是今年上半年最值得关注的新功能。 5 月 22 日凌晨,OpenAI 官宣 Codex For PowerPoint 插件正式进入内测阶段。简单来说,就是 ChatGPT 现在可以直接接入 PowerPoint,在软件内部生成幻灯片了。 (图源:OpenAI)

时间:2026-05-24 18:41
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程