从稀疏视角到完整3D几何:即插即用的语义增强重建插件
SERES将跨视角的语义一致性与结构层面的区域约束,转化为一种低成本、可解释、可复用的训练先验。本文作者团队来自上海交通大学、英国曼彻斯特大学与香港中文大学。团队成员包括:徐博、王超、乐心怡(上海交通大学,自动化系),郭宇峰、王昌凌(英国曼彻斯特大学,机械与航空航天工程学院),王文婷、任扬(香港中文大学,机械与自动化工程学系)。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
表面重建的核心挑战,在于如何在少量视角下同时兼顾几何准确性、细节还原与结构完整。现有神经隐式表达在样本稀疏时容易出现跨视角对应不稳、边界模糊、局部缺失等现象;当可见区域有限、纹理不明显、遮挡复杂时,这些问题会被进一步放大。
为了补救,不少工作尝试引入单目深度、法线或稠密视角序列等外部几何线索,但这通常意味着额外的采集成本和不稳定的噪声来源,一旦误差被带入,反而会破坏原本已经较为准确的几何。
另一条思路是通过更复杂的网络结构或强先验来提升稳定性,但可迁移性与训练成本却随之上升,且在真实场景下的鲁棒性并不总是稳定。
归根结底,稀疏视角的难点在于覆盖不足导致的匹配不稳与形变放射义:同一结构在不同视角里的局部片段难以可靠对应,优化过程容易迷失在局部最优。
直观经验却告诉我们,只要把同一物体的“对应部分”对齐,形状就会变得清晰。基于这一朴素而有效的直觉,作者提出SERES,在不改动主干框架的前提下,将跨视角的语义一致性变成一种训练先验注入到模型里,用低成本的方法去解决高代价的歧义问题,让少量视角也能得到清晰而完整的几何。

该工作来自上海交通大学、曼彻斯特大学和香港中文大学的团队,目前已被IEEE Transactions on Visualization and Computer Graphics接收。

论文标题:SERES: Semantic-Aware Neural Reconstruction from Sparse Views论文主页:https://seres0.github.io/论文链接:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=11197045
方法概述
SERES的设计围绕两条主线展开:语义匹配先验与区域级正则。整体以训练期插件的方式接入常见主干,如NeuS或Neuralangelo,不改变渲染与隐式表达的基本表达,仅在训练中提供额外的线索与约束。

图1 SERES方法流程
语义匹配先验
首先是语义匹配先验。直观地说,作者让“来自他视角的提醒”在训练中始终存在。具体做法是,从每张输入图像中自动提取一组稳定的语义块与几何原语。语义块侧重于外观与语义的一致性,几何原语则对应更具结构意义的区域。随后,对这些语义块提取图像级特征,并在多视角之间进行交互式的对齐与聚合,让不同视角中“看似相似”的部分彼此对上号。这样得到的先验信息作为额外输入喂给主干,使得主干在每一次更新时,都能显式感知来自其他视角的对应关系。

图2 语义匹配质量对重建质量的影响
这种做法的好处在于,模型不再孤立地依赖单一视角的证据,而是在训练的每一步都被提醒哪些细节需要被保留、哪些边界应当对齐、哪些区域存在歧义需要更谨慎地处理。对于稀疏视角尤其是极少数视角的情况,这份提醒能显著减少错配带来的形状扭曲与边界模糊。
区域级正则
仅有像素级误差往往不足以约束形状的全局一致性,尤其在纹理稀薄或反射复杂的区域,像素级监督容易放大噪声。SERES在图像空间引入了解释性强的区域一致性约束。基于前述的几何原语,作者为每张图像得到一组覆盖关键部件的区域分割与掩码。在训练过程中,这些可解释的区域与模型渲染得到的语义分布进行对齐,形成面向区域的一致性约束。它鼓励模型在真实边界处给出更清晰、稳定的表面表达,在容易产生歧义的部分尽量减少破碎或漂移。与仅依赖像素损失不同,区域级正则提供了“形状应该如何对齐”的强信号,能有效抑制噪声碎片,让最终的网格更干净、曲面更连贯。

图3 语义属性体渲染结果
从工程实现角度看,SERES的两条主线都只在训练期生效,不改变推理流程。语义先验分解为稳定分割块、特征提取与跨视角聚合三步,接口简单;而区域级正则以可解释的掩码为锚,和主干的渲染分布对齐即可。整体额外计算开销小,训练时间仅有小幅增加,对不同主干的适配也无需侵入式改造。
消融实验表明,缺失语义匹配先验时,跨视角错配与形变明显增多;去掉区域级正则时,网格易出现噪声与断裂;而使用未优化或质量不高的先验,同样会拖累最终几何。
实验
在DTU的稀疏多视角设置中,SERES作为训练期插件显著提升了重建质量与新视角合成质量。与主流基线相比,画面质量指标在多组场景中全面优于对应的原始主干,同时几何误差在从极少数到较少视角的范围内稳定下降。随着视角数从极少逐步增加,误差的下降趋势依旧保持,说明这套先验与正则对不同稀疏程度都有稳定收益。


图4 DTU重建效果

图5 视角数变化的影响
在BlendedMVS以及多种真实场景中,SERES输出更完整、更干净的几何,在难匹配区域有效减少断裂与噪声,体现出良好的鲁棒性与通用性。
与仅依赖像素级误差不同,区域级正则的价值在真实边界处更为直观。很多难例,如重复纹理、细杆与树枝类的复杂拓扑,往往在像素层面难以稳定监督。区域级正则将这些区域包裹起来,以更高层次的一致性去牵引优化,使得模型对边界位置的判断更具确定性,从而减少边缘模糊、壳体破洞以及不必要的表面漂移。

图6 BMVS重建效果

图7 实拍场景重建效果
消融实验显示,缺失语义匹配先验或区域级正则都会明显拉低重建质量,这两者是互补且必要的。

图8 消融实验结果
结论
SERES将跨视角的语义一致性与结构层面的区域约束,转化为一种低成本、可解释、可复用的训练先验。它以即插即用的方式接入现有的隐式重建框架,不需要额外传感器或复杂改造,即便在很少的视角下,也能恢复边界清晰、结构完整、细节可靠的表面。面对更大规模场景、更复杂材质与光照等现实挑战,这一思路仍有充分拓展空间。对工程师和研究人员而言,SERES的接口简单、迁移门槛低、真实场景友好,适合直接集成到当前的三维重建工作流中,用更少的视角获得更高保真的几何重建。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
研究发现:同时使用过多 AI 工具实际上会降低工作效率,并导致“大脑疲劳”
警惕“AI脑疲劳”:多工具并行背后的效率陷阱 人工智能工具在提升工作效率方面的潜力有目共睹,但企业管理者们似乎需要踩一脚刹车,重新审视“越多越好”的堆叠式使用策略。过度依赖和同时调度多个AI工具,反而可能将员工推入一种新型的职业困局。 这一警示并非空xue来风,其根源来自《哈佛商业评论》近期发表的一
美的发布“三个一”战略及 MevoX 家居智能体,未来三年将投 600 亿深耕 AI 与具身智能等前沿领域
美的发布“三个一”战略及MevoX家居智能体,未来三年将投600亿深耕AI与具身智能等前沿领域 3月10日,以“智美万象”为主题的美的2026全屋智能战略发布会在上海举行。这次发布会,可以说为智能家居行业勾勒出了一幅相当清晰的未来图景。会上,美的正式亮出了其全屋智能的“三个一”战略、自进化家居智能体
曝腾讯正开发“绝密级”微信 AI 智能体:年中启动灰测,能操控全平台数百万小程序
曝腾讯正开发“绝密级”微信 AI 智能体:年中启动灰测,能操控全平台数百万小程序 一则来自《The Information》的报道,在行业里激起了不小的涟漪。根据他们3月10日的消息,腾讯内部似乎正在进行一项“绝密级”的AI智能体项目,而它的主战场,正是我们每天离不开的微信。 报道援引了四位知情人士
谷歌首个原生多模态嵌入模型 Gemini Embedding 2 发布:能让机器“理解”信息
谷歌发布首个原生多模态嵌入模型 Gemini Embedding 2:让机器真正“理解”多元信息 北京时间今天凌晨,谷歌扔出了一枚重磅技术冲击波——全新的 Gemini Embedding 2 模型正式发布。这可不是一次简单的迭代,它是谷歌首个原生的多模态嵌入模型。简单来说,从此以后,文字、图像、视
受 AI 及裁员等因素影响,2 月美国科技从业者信心再度下滑
3 月 11 日消息:美国员工信心再度下滑,科技行业“寒冬”持续 据《商业内幕》今日报道,美国职场情绪在年初并未迎来回暖。今年2月,员工对公司的信心指数再次掉头向下,而其中,科技从业者的悲观情绪显得尤为突出。 招聘与职场评价平台Glassdoor每月发布的员工信心指数,一直是观察职场情绪变化的温度计
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

