面包屑图标 当前位置: 首页
AI资讯
热点详情

单目3DGS迎来重大突破影石开源UniSHARP实现全相机适配

AI热点日报
AI热点日报时间:2026-06-29
热点解读

影石研究院近日发布了一项令人瞩目的技术成果——UniSHARP,这是一个面向异构成像系统的单目新视角合成模型。该模型的最大亮点在于,它是首个能够同时兼容透视、广角、鱼眼以及360°全景相机的单目3DGS模型。仅需输入一张图片,模型便能在约一秒内快速计算出场景的高斯点云,彻底告别了传统方法需要多张图片

影石研究院近日发布了一项令人瞩目的技术成果——UniSHARP,这是一个面向异构成像系统的单目新视角合成模型。该模型的最大亮点在于,它是首个能够同时兼容透视、广角、鱼眼以及360°全景相机的单目3DGS模型。仅需输入一张图片,模型便能在约一秒内快速计算出场景的高斯点云,彻底告别了传统方法需要多张图片或针对特定场景反复迭代优化的繁琐流程。

简而言之:只需一张图、一个模型,即可适配所有相机类型。

研究团队不仅开发了模型本身,还构建了一个包含30万张全景图及深度信息的仿真数据集OmniRooms,并设计了一套覆盖多种相机类型的FoV分层基准测试平台。更令人称道的是,训练代码、测试代码、模型权重、数据集以及在线Demo全部开源,供开发者自由使用。



首先,我们来回顾一下背景。3D高斯泼溅(3D Gaussian Splatting)与新视角合成技术近年来发展迅猛,这已是不争的事实。然而,一个长期存在的瓶颈始终未能解决:绝大多数现有方法默认输入来自普通的透视相机。但现实世界中的拍摄设备远非如此单一——全景相机、鱼眼镜头、超广角运动相机才是常态。即便某些方法能够处理全景图,往往也需要多张图片输入,或者要求针对每个场景单独进行优化。然而,在实际应用中,用户手中往往只有一张随手拍摄的照片——可能是手机拍摄的普通视角,也可能是全景相机的瞬间抓拍——能够将其快速转化为高质量、可交互的新视角,才真正具有实用价值。

面对这一挑战,很多人首先想到的可能是两条路径:其一是对透视模型进行“微调”,使其适应更大视场。但模型与针孔相机的归一化设备坐标系深度绑定,本质上无法在非针孔成像域中准确预测几何形状和处理畸变。其二是将大图分割成小块,重投影成多个透视视角,分别处理后再拼接。然而,这种方法不仅计算量急剧上升,还会在拼接处产生明显的伪影和几何不连续问题,令人头疼不已。

UniSHARP正是为解决这一难题而生——它让单目3DGS彻底摆脱了针孔假设的束缚,实现了一张图、一个模型从普通照片到360°全景的统一重建。



基于射线的统一表示:彻底摆脱针孔相机假设

现有的单目3DGS方法,如SHARP、Flash3D,大多在窄视场的透视数据上训练,其几何预测与图像平面的坐标绑定过紧。一旦切换到鱼眼或全景图像,泛化能力便显得捉襟见肘。

UniSHARP的核心思路十分简洁:将场景表示迁移到射线-距离空间。具体而言,模型为每个像素预测一条单位视线方向,并附加一个沿射线的径向距离,三维点由这两者共同确定。无论输入是透视、鱼眼还是ERP全景图,高斯球都在同一个度量三维空间中进行定义,不再受限于某一种相机模型。这一设计借鉴了UniK3D的思路,使UniSHARP能够原生适配各种视场和畸变,无需再将全景图硬性分割成多张透视图后进行拼接——对比效果非常明显:当使用SHARP推理全景图的6个立方体时,拼接伪影和几何不一致问题肉眼可见,而UniSHARP渲染出的全景目标视图则保持了连贯一致。



几何锚定高斯 + 特征条件残差:兼顾稳定几何与细腻外观

在统一的射线网格空间中,UniSHARP首先构建了双层几何锚定高斯(Geometry Anchored Gaussians)。第一层用于对齐可见表面,第二层则捕捉遮挡区域以及高频结构,为单目重建提供了一个稳固的基础高斯场。随后,模型融合2D语义特征和3D几何特征,预测特征条件高斯残差(Feature Conditioned Gaussian Residuals),对高斯球进行精细化修正,最终生成可渲染的高斯点云。

相较于那些直接将RGB图像和深度图输入解码器的传统方法,这种设计能够更充分地利用几何先验和语义上下文信息。此外,值得一提的是,针对ERP全景图存在的严重畸变问题,团队引入了球面高斯初始化和畸变感知概率Dropout,在HM3D等全景数据集上取得了显著效果。



混合相机训练与无位姿推理:贴近真实部署场景

训练阶段的设计同样颇具巧思。UniSHARP在透视(RealEstate10K、DL3DV、WildRGB-D)、鱼眼(ScanNet++ Fisheye)以及全景(HM3D、OmniRooms)等数据上进行混合采样,采用统一架构,无需设置相机专用分支——所有样本均转换为相同的射线接口,共享同一个网络。

更贴近实际应用的是其无位姿模式。如果用户没有标定内参,模型能够从预测的射线场中自动推断相机类型并渲染几何,无需手动提供透视或鱼眼参数。这在真实部署场景中,价值尤为突出。



OmniRooms与FoV分层基准测试:30万全景图填补数据空白

为了系统评估从60°到360°的新视角合成能力,团队构建了一个分视场角(FoV)的基准测试平台,并发布了仿真数据集OmniRooms。该数据集包含16个大型室内场景,共计约30万张1024x2048分辨率的ERP全景图,且每张图均附有对应的深度信息。它专门针对3D重建,尤其是3DGS任务进行了优化。每个锚点在一个0.5米的体素网格上,渲染出1个中心相机和29个局部小位移相机的视图。



基准测试结果:透视性能不降,全景领域大幅领先

在透视数据集上,UniSHARP并未因追求“通用性”而牺牲窄视场性能。测试结果显示,它全面超越了SHARP、Flash3D等基线模型。在零样本测试的Tanks & Temples数据集上,UniSHARP同样取得了最佳的PSNR指标。

而在全景场景中,其优势则更加明显。



全栈开源:代码、数据、模型、Demo一键可用

UniSHARP的贡献不仅在于提出了一个全新的单目3DGS模型,更在于它展示了一条面向真实异构成像系统的完整技术路线:利用射线空间统一不同相机几何,通过几何锚定与特征残差稳定预测高斯场,借助混合相机训练实现跨视场迁移,依靠OmniRooms和分层基准测试支撑可复现的评估,并通过无位姿机制降低部署门槛。

对影石而言,这一方向与全景相机、运动相机的产品场景天然契合——用户拍摄的每一张360°照片、每一段鱼眼素材,都有望被快速转化为可自由漫游的三维空间。而对于更广泛的社区,统一的单目3D视觉也为机器人导航、AR/VR内容创作等领域提供了新的工具。这一技术值得持续关注。

热点追踪提示词
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:单目3DGS迎来重大突破影石开源UniSHARP实现全相机适配要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
来源:https://www.163.com/dy/article/L0C502H70511AQHO.html
开源

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关热点
AI热点2026-07-02 13:12
谷歌提示词比赛亚军:把AI当同事而非机器

与AI高效协作这件事,最近有个挺有意思的切入点——谷歌和瑞士邮政旗下的Digitalidag联合办了一场提示词比赛,让选手们编写指令,比如让AI制定一份详细的学习计划。亚军得主Joakim Jardenberg赛后接受了专访,分享了不少实操心得。下面这几个核心判断,值得每一位与AI共事的人反复琢磨。

AI热点2026-07-02 13:12
瓴盛打造核心平台与产业生态,加速AIoT场景落地

物联网已成为继智能手机热潮之后,半导体芯片领域最大的应用增长引擎。根据IDC的市场分析报告,中国物联网市场规模增长潜力巨大,预计2022年将超越美国,成为全球最大的物联网市场,占据世界物联网总规模的四分之一以上。按照这一趋势推算,到2025年中国物联网市场规模至少将达到3918亿美元。物联网的核心应

AI热点2026-07-02 13:11
人工智能大模型检索增强生成框架Dify深度解析

在生成式AI技术迅猛发展的背景下,Dify作为一款面向开发者的开源大语言模型应用开发平台,正在深刻改变AI应用的构建方式。它诞生于2023年前后,核心目标非常明确:通过低代码化与模块化设计,使开发者无需从零搭建复杂架构,即可快速部署生产级AI应用。随着大语言模型(LLM)技术的普及,Dify逐渐成为

AI热点2026-07-02 13:11
循序渐进构建MCP服务器教程

这次咱们来拆解一个实际项目:如何基于 TypeScript 构建一个完整的 MCP 服务器。别担心,整个过程会一步步拆开揉碎了讲,从环境搭建到代码实现,再到集成 Claude Desktop 进行测试,一条龙说清楚。 为了不让这个教程显得太干,我们会用一个非常接地气的场景——**天气查询服务**——

延伸阅读