面包屑图标 当前位置: 首页
AI资讯
热点详情

Gamba 0.05秒单图生成高质量3D模型,新加坡国大与天工AI开源

AI热点日报
AI热点日报时间:2026-05-31
热点解读

Gamba是一种单视图3D重建方法,将3D高斯泼溅与Mamba架构结合,构建端到端前馈管道。输入单张图片直接输出3D高斯参数,推理仅需0 05秒,比传统优化方法快约1000倍。其GambaFormer骨干将重建建模为线性可扩展序列预测,径向掩码约束省去点云热身监督。生成模型在几何形状和纹理细节上优于现有方法。

```html

只需单张图片就能生成高质量的3D模型,这一能力在AR/VR、自动驾驶、工业设计等领域拥有广阔的应用前景。过去,这类任务主要依赖评分蒸馏采样(SDS)方法,但痛点十分突出:需要逐实例优化,耗时动辄数分钟甚至更久,并且受限于预训练2D扩散模型自身的偏差,容易产生多面问题等伪影。此外,许多方案采用神经辐射场(NeRF),高维MLP和低效的体积渲染对计算资源需求极高。如今,昆仑万维颜水成团队提出的Gamba为单视图3D重建提供了一种又快又好的全新解决方案。

▲与大型重建模型的定性比较。

Gamba的核心思路是将3D高斯泼溅(3D Gaussian Splatting)与Mamba架构巧妙融合,构建一个端到端的前馈重建管道。简单来说,只需输入一张图片,模型就能直接输出3D高斯参数,再通过渲染器生成多视图图像进行监督训练。这一过程完全避免了耗时的逐实例优化,推理时间仅需0.05秒——比传统优化方法快了近1000倍。更重要的是,它是第一个真正利用3DGS实现端到端训练的单视图重建模型,而非像此前许多方案那样仅将3DGS当作后处理工具。

▲ 图(a):Gamba是一种端到端、前馈单视图重建管道,将3DGS与Mamba相结合。图(b):3DGS迭代重建与Gamba顺序预测模式之间的关系。

从架构来看,Gamba包含两个关键创新点:一是高效的骨干设计——引入基于Mamba的GambaFormer网络,将3DGS重建建模为线性可扩展的序列预测任务,能够处理海量高斯点,而不会像Transformer那样随序列长度导致内存暴涨;二是稳健的高斯约束——通过从多视图掩码中导出径向掩码约束,省去了训练中对3D点云热身监督的需求,使训练过程更加简洁稳定。

▲ 图2:Gamba整体架构。单视图图像及其相机姿态作为输入,预测3D高斯泼溅,监督仅通过渲染的多视图图像的重建损失施加。

具体流程上,Gamba先通过图像分词器(Image Tokenizer)将输入图像转换为令牌,然后这些令牌依次通过多个Gamba Block逐层处理。每个Gamba Block内部会先丢弃部分相机姿态和条件图像令牌(Drop),再经Mamba块处理,接着将上一层的3DGS令牌拼接到前面(Prepend),最后通过线性层送入下一个Block。这种设计使模型能以线性复杂度逐步精化3D细节,类似于3DGS迭代克隆与分裂的优化策略。

实际效果如何?与One-2-3-45、DreamGaussian等主流方法相比,Gamba在几何形状和纹理细节上表现明显更优。无论是蘑菇、摩托车、心脏还是皮卡丘,Gamba生成的模型都保持了合理的结构和逼真的纹理,几乎看不到模糊或失真现象。

▲ 与基于Zero-1-to-3的单视图3D重建方法比较:One-2-3-45(前馈)和DreamGaussian(优化)。Gamba在几何和纹理上优势明显。

速度方面,在单张NVIDIA A100 GPU(80GB)上,Gamba推理仅需0.05秒。这得益于Mamba架构在长序列上的低内存消耗——下图展示了Mamba与Transformer在令牌长度变化时的内存消耗对比,Gamba选用Mamba正是看中其线性扩展能力。

▲ Mamba与Transformer的内存消耗随令牌长度变化比较。

Gamba

这是 Gamba: Marry Gaussian Splatting with Mamba for single view 3D reconstruction 的官方实现。

为什么选择Gamba

  • 从单个图像输入重建3D对象,仅需50毫秒。
  • 首个可端到端训练的单视图重建模型,采用3DGS技术。

安装

# 需要安装xformers!请参阅https://github.com/facebookresearch/xformers了解详细信息。
# 例如,我们使用torch 2.1.0 + cuda 11.8
pip install torch==2.1.0 torchvision==0.16.0 torchaudio==2.1.0 --index-url https://download.pytorch.org/whl/cu118
pip install causal-conv1d==1.2.0 mamba-ssm
git clone --recursive git@github.com:SkyworkAI/Gamba.git
# 修改过的高斯点撒算法(+ 深度,alpha渲染)
pip install ./submodules/diff-gaussian-rasterization
# 辐射多边形掩码,仅在训练中使用
pip install ./submodules/rad-polygon-mask

# 用于网格提取
pip install git+https://github.com/NVlabs/nvdiffrast

# 其他依赖项
pip install -r requirements.txt

预训练权重

预训练权重可从 huggingface 下载(一个更大的模型即将推出)。例如,下载用于推理的bf16模型:

mkdir checkpoint && cd checkpoint
wget https://huggingface.co/florinshen/Gamba/resolve/main/gamba_ep399.pth
cd ..

推理

推理大约需要1.5GB的GPU内存,耗时50毫秒:

bash scripts/test.sh

更多选项请查看选项。

训练

训练教程即将更新。这项工作基于许多优秀的研究和开源项目:LGM、OpenLRM、gaussian-splatting、diff-gaussian-rasterization、nvdiffrast、dearpygui、tyro等。

另一个统一3D生成项目 MVGamba,代码和预训练权重也将很快发布。

```
热点追踪提示词
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:Gamba 0.05秒单图生成高质量3D模型,新加坡国大与天工AI开源要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
来源:https://www.53ai.com/news/AIgongye/2024070141059.html
ai 人工智能

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关热点
AI热点2026-05-31 20:11
1688 AI原生应用创新探索与实践深度剖析案例分享

1688平台以AI原生理念重构电商找挑链路,通过导购助手与找挑一体化方案,融合多轮对话、多模态内容解析及端到端智能引擎,突破传统检索割裂瓶颈,实现需求理解、智能推荐与闭环服务,显著提升供需匹配效率。

AI热点2026-05-31 20:11
如何使用ChatGPT制作行业趋势分析报告完整教程

上传国家统计局Excel数据至ChatGPT,通过因果链指令与反事实提问驱动趋势分析,构建竞对清单并交叉比对年报信源,强制标注出处防虚构,最终浓缩成含冲击力百分比与Markdown证据表的PPT结论页。

AI热点2026-05-31 20:11
稿定AI科技发布会KV提示词优化输出技巧

稿定AI生成科技发布会KV需精准指令:开头明确核心信息与视觉权重,绑定品牌色值并禁止干扰元素,控制构图与留白比例,关闭智能增强,设定文字安全区与字号规则,以确保输出适合直接发布。

AI热点2026-05-31 20:10
62k星标文档智能引擎,复杂文档开口说话

RAGflow智能知识问答助手基于RAG架构,精准检索PDF、Word等文档,支持自然语言交互,保障私域数据安全。通过AI智能体市场一键安装部署,上传文档构建知识库,配置大模型后即可实现私有知识库的智能问答。

延伸阅读