从稀疏视角到完整3D几何：即插即用的语义增强重建插件

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

从稀疏视角到完整3D几何：即插即用的语义增强重建插件

热心网友时间：2025-11-03

转载

SERES将跨视角的语义一致性与结构层面的区域约束，转化为一种低成本、可解释、可复用的训练先验。本文作者团队来自上海交通大学、英国曼彻斯特大学与香港中文大学。团队成员包括：徐博、王超、乐心怡（上海交通大学，自动化系），郭宇峰、王昌凌（英国曼彻斯特大学，机械与航空航天工程学院），王文婷、任扬（香港中文大学，机械与自动化工程学系）。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

表面重建的核心挑战，在于如何在少量视角下同时兼顾几何准确性、细节还原与结构完整。现有神经隐式表达在样本稀疏时容易出现跨视角对应不稳、边界模糊、局部缺失等现象；当可见区域有限、纹理不明显、遮挡复杂时，这些问题会被进一步放大。

为了补救，不少工作尝试引入单目深度、法线或稠密视角序列等外部几何线索，但这通常意味着额外的采集成本和不稳定的噪声来源，一旦误差被带入，反而会破坏原本已经较为准确的几何。

另一条思路是通过更复杂的网络结构或强先验来提升稳定性，但可迁移性与训练成本却随之上升，且在真实场景下的鲁棒性并不总是稳定。

归根结底，稀疏视角的难点在于覆盖不足导致的匹配不稳与形变放射义：同一结构在不同视角里的局部片段难以可靠对应，优化过程容易迷失在局部最优。

直观经验却告诉我们，只要把同一物体的“对应部分”对齐，形状就会变得清晰。基于这一朴素而有效的直觉，作者提出SERES，在不改动主干框架的前提下，将跨视角的语义一致性变成一种训练先验注入到模型里，用低成本的方法去解决高代价的歧义问题，让少量视角也能得到清晰而完整的几何。

该工作来自上海交通大学、曼彻斯特大学和香港中文大学的团队，目前已被IEEE Transactions on Visualization and Computer Graphics接收。

论文标题：SERES: Semantic-Aware Neural Reconstruction from Sparse Views论文主页：https://seres0.github.io/论文链接：https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=11197045

方法概述

SERES的设计围绕两条主线展开：语义匹配先验与区域级正则。整体以训练期插件的方式接入常见主干，如NeuS或Neuralangelo，不改变渲染与隐式表达的基本表达，仅在训练中提供额外的线索与约束。

图1 SERES方法流程

语义匹配先验

首先是语义匹配先验。直观地说，作者让“来自他视角的提醒”在训练中始终存在。具体做法是，从每张输入图像中自动提取一组稳定的语义块与几何原语。语义块侧重于外观与语义的一致性，几何原语则对应更具结构意义的区域。随后，对这些语义块提取图像级特征，并在多视角之间进行交互式的对齐与聚合，让不同视角中“看似相似”的部分彼此对上号。这样得到的先验信息作为额外输入喂给主干，使得主干在每一次更新时，都能显式感知来自其他视角的对应关系。

图2 语义匹配质量对重建质量的影响

这种做法的好处在于，模型不再孤立地依赖单一视角的证据，而是在训练的每一步都被提醒哪些细节需要被保留、哪些边界应当对齐、哪些区域存在歧义需要更谨慎地处理。对于稀疏视角尤其是极少数视角的情况，这份提醒能显著减少错配带来的形状扭曲与边界模糊。

区域级正则

仅有像素级误差往往不足以约束形状的全局一致性，尤其在纹理稀薄或反射复杂的区域，像素级监督容易放大噪声。SERES在图像空间引入了解释性强的区域一致性约束。基于前述的几何原语，作者为每张图像得到一组覆盖关键部件的区域分割与掩码。在训练过程中，这些可解释的区域与模型渲染得到的语义分布进行对齐，形成面向区域的一致性约束。它鼓励模型在真实边界处给出更清晰、稳定的表面表达，在容易产生歧义的部分尽量减少破碎或漂移。与仅依赖像素损失不同，区域级正则提供了“形状应该如何对齐”的强信号，能有效抑制噪声碎片，让最终的网格更干净、曲面更连贯。

图3 语义属性体渲染结果

从工程实现角度看，SERES的两条主线都只在训练期生效，不改变推理流程。语义先验分解为稳定分割块、特征提取与跨视角聚合三步，接口简单；而区域级正则以可解释的掩码为锚，和主干的渲染分布对齐即可。整体额外计算开销小，训练时间仅有小幅增加，对不同主干的适配也无需侵入式改造。

消融实验表明，缺失语义匹配先验时，跨视角错配与形变明显增多；去掉区域级正则时，网格易出现噪声与断裂；而使用未优化或质量不高的先验，同样会拖累最终几何。

实验

在DTU的稀疏多视角设置中，SERES作为训练期插件显著提升了重建质量与新视角合成质量。与主流基线相比，画面质量指标在多组场景中全面优于对应的原始主干，同时几何误差在从极少数到较少视角的范围内稳定下降。随着视角数从极少逐步增加，误差的下降趋势依旧保持，说明这套先验与正则对不同稀疏程度都有稳定收益。

图4 DTU重建效果

图5 视角数变化的影响

在BlendedMVS以及多种真实场景中，SERES输出更完整、更干净的几何，在难匹配区域有效减少断裂与噪声，体现出良好的鲁棒性与通用性。

与仅依赖像素级误差不同，区域级正则的价值在真实边界处更为直观。很多难例，如重复纹理、细杆与树枝类的复杂拓扑，往往在像素层面难以稳定监督。区域级正则将这些区域包裹起来，以更高层次的一致性去牵引优化，使得模型对边界位置的判断更具确定性，从而减少边缘模糊、壳体破洞以及不必要的表面漂移。

图6 BMVS重建效果

图7 实拍场景重建效果

消融实验显示，缺失语义匹配先验或区域级正则都会明显拉低重建质量，这两者是互补且必要的。

图8 消融实验结果

结论

SERES将跨视角的语义一致性与结构层面的区域约束，转化为一种低成本、可解释、可复用的训练先验。它以即插即用的方式接入现有的隐式重建框架，不需要额外传感器或复杂改造，即便在很少的视角下，也能恢复边界清晰、结构完整、细节可靠的表面。面对更大规模场景、更复杂材质与光照等现实挑战，这一思路仍有充分拓展空间。对工程师和研究人员而言，SERES的接口简单、迁移门槛低、真实场景友好，适合直接集成到当前的三维重建工作流中，用更少的视角获得更高保真的几何重建。

来源:https://www.51cto.com/article/828630.html

上一篇： arXiv新规解读：论文需经会议或期刊接收方可发布

下一篇： Jason Wei揭秘2025年AI走向：OpenAI核心成员的三大前瞻思路