李飞飞空间智能公司一次性发布三篇论文
WorldLabs同日发布三篇技术论文,聚焦利用2D生成模型降低3D内容生成门槛。WorldTracing实现单图像素级三维几何重建,ModalityForcing统一深度估计与图像生成,Flex4DHuman从单目视频重建动态人体4D结构。联合创始人ChristophLassner同日宣布离职。
今天,空间智能公司 World Labs 迎来重大发布——同日推出三篇技术论文。这三篇文章分别由公司实习研究员主导完成,课题方向各有侧重,却共同聚焦于同一核心命题:如何借助已在海量图片数据上训练成熟的 2D 生成模型,进一步降低 3D 内容生成的门槛。值得一提的是,这是 World Labs 首次正式公开发表学术论文。正如联合创始人 Justin Johnson 所言,公司此前虽有多项成果展示,但这三篇确实构成了他们的“首批论文”(first-ever papers)。回到本轮主题:3D 内容生成。说起来容易,做起来却极为艰难。现实世界是三维的,但可用的训练数据绝大多数是二维的——照片、视频、图像,缺乏体积、深度和遮挡关系所构成的完整空间结构。一旦转入三维,训练数据急剧减少,几何一致性的维护复杂度呈指数级上升。过去几年,研究者们摸索出一条可行路径:不从头训练 3D 生成模型,而是将 2D 扩散模型强大的先验能力迁移到 3D 生成任务上。World Labs 此次一口气发布的三篇论文,恰好从不同维度拓展了这条探索之路。
下面就来详细解读 World Labs 的首批论文。
什么意思呢?World Tracing 为每个像素对应的不只是一个三维点,而是一叠有序的三维点。这叠点记录的是这条视线穿越场景时经过的所有几何层——第 0 层是直接可见的表面,更深的层则逐步揭示被前景物体遮挡的隐藏几何体。这就好比把相机比作一支铅笔:普通深度估计只能画出物体的轮廓线,而 World Tracing 试图画出这支铅笔穿透纸张时另一面的样子。预测这种“深度堆叠”是极高难度的任务,因为遮挡面的几何信息根本没有出现在图像里,模型必须依赖对现实世界空间结构的“常识”进行推断。为此,研究团队采用扩散模型对这组有序深度值建模。扩散模型天然适合处理带有不确定性的分布式预测,而非给出一个确定答案。更关键的是,整个预测过程始终对齐于原始输入图像的像素坐标。可见表面的深度被精确地“锚定”在图像信息中,而不可见部分的补全则在这个约束框架下进行生成。最终的三维重建,既忠实于输入图像,又具备了完整的空间结构。论文中展示的案例覆盖了静态物体、室内外场景,乃至动态世界建模。团队还发布了论文代码、项目主页和 Hugging Face 在线演示,让外界可以直接测试这套方法对任意图像的处理效果。对 World Labs 这样以“空间智能”为核心产品的公司来说,World Tracing 的意义在于:它提供了一条从单张图像出发、直接恢复丰富三维结构的技术路径,不需要多视角输入,也不需要昂贵的三维数据标注。这与 Marble 产品“从图像生成可探索三维世界”的核心承诺高度一致。
训练时,RGB 和深度各自被加入不同程度的噪声,各自接受独立的损失监督;推理时,只需固定某一模态的噪声步为 0(即视为已知条件),对另一模态完整去噪,便能实现图像到深度(I2D)或深度到图像(D2I)的条件生成;两者都加噪,就是联合生成。由于深度在像素空间直接扩散(而非 VAE 的隐空间),模型可以从仅含稀疏深度标注的真实世界数据中学习,不再局限于依赖密集标注的合成数据集。这种思路的优势在于:不需要额外引入独立的深度网络,也不需要为每个任务单独设计架构分支。一个预训练的文生图模型,通过 Modality Forcing 微调之后,就具备了直接感知场景几何的能力。从技术路径来看,Modality Forcing 与近年来流行的多任务扩散模型研究(如 Marigold、Depth Pro、Lotus 等)方向一致,但它的独特之处在于对“生成”与“感知”两类任务的统一处理。深度估计通常被视为一个判别任务(给定图像,输出深度值),而文生图是一个生成任务。Modality Forcing 的贡献在于证明:这两类任务的边界比想象中模糊得多。生成能力的积累,可以直接转化为感知能力的提升,反之亦然。对 World Labs 来说,这项研究的意义延伸到产品层面:Marble 的 3D 世界生成,需要对场景深度的精确理解。一个同时具备生成和感知能力的统一模型,能使 3D 世界的构建更加自洽,避免深度估计模块和生成模块之间的累积误差。
这个设计带来一个关键优势:不需要骨架估计(skeleton)、深度图或法线图等显式几何先验,仅凭相对相机姿态就能驱动多视角视频的同步生成。这与之前的主流方法(如 Diffuman4D 依赖 SMPL 骨架、MV-Performer 依赖深度和法线渲染)形成了鲜明对比。给定一段单目参考视频和目标相机姿态,模型直接输出在时间上同步、视角上一致的多视角视频序列;再将这些多视角视频送入 FreeTimeGS 重建管线,即可得到动态 4D 高斯表示(4D Gaussian Splats)。这套流程将视频扩散模型的强大外观先验和 4D 高斯的高效渲染能力结合起来,使得从一段跳舞视频或行走视频出发,可以将其中的人物“升维”为完整的动态 4D 资产,再合成进任意 3D 场景。这对数字内容创作、虚拟制片和 AR/VR 应用来说,价值非常直接。论文还验证了该方法超出人体的泛化性:同一个模型经过少量微调后,可以推广到多物种动物的多视角生成,在跨物种零样本测试中仍然保持较强的性能,说明方法的核心设计不依赖人体特有的几何假设。论文在 DNA-Rendering 和 ActorsHQ 两个基准上进行了评测。和同样基于单目参考视频的 Diffuman4D-mono-skeleton 相比,Flex4DHuman 在 DNA-Rendering 上 PSNR 提升了大约 9.3 dB;在零样本的 ActorsHQ 测试集上,PSNR 也高出对手约 3.4 dB。从更宏观的视角看,Flex4DHuman 代表了“2D 视频数据赋能 3D 世界建模”这一技术路线的一个典型样本。手机视频是人类日常生产最多的数据形式,如果能够高效地从中提取四维信息,将极大扩展 3D 世界模型的训练数据来源。
来源:https://www.jiqizhixin.com/api/article_library/articles/2026-06-13-2
下面就来详细解读 World Labs 的首批论文。
World Tracing:让每一个像素,都指向一个完整的 3D 世界
如果你手上只有一张照片,你能从中还原出多少三维信息?常识告诉我们:非常有限。照片只是现实世界在某一时刻、某一视角的投影,深度信息丢失,被遮挡的后方空间完全不可见。当前主流的单图转 3D 方法,往往会陷入两难境地:要么做深度估计——精确但只能恢复可见表面;要么做生成补全——想象力丰富,但结果经常偏离原始图像的视觉细节。World Tracing 想要做的,是同时打破这两道限制。- 论文标题:World Tracing: Generative Pixel-Aligned Geometry Beyond the Visible
- 论文地址:https://arxiv.org/abs/2606.13652
- 项目地址:https://haoz19.github.io/world-tracing-page/
什么意思呢?World Tracing 为每个像素对应的不只是一个三维点,而是一叠有序的三维点。这叠点记录的是这条视线穿越场景时经过的所有几何层——第 0 层是直接可见的表面,更深的层则逐步揭示被前景物体遮挡的隐藏几何体。这就好比把相机比作一支铅笔:普通深度估计只能画出物体的轮廓线,而 World Tracing 试图画出这支铅笔穿透纸张时另一面的样子。预测这种“深度堆叠”是极高难度的任务,因为遮挡面的几何信息根本没有出现在图像里,模型必须依赖对现实世界空间结构的“常识”进行推断。为此,研究团队采用扩散模型对这组有序深度值建模。扩散模型天然适合处理带有不确定性的分布式预测,而非给出一个确定答案。更关键的是,整个预测过程始终对齐于原始输入图像的像素坐标。可见表面的深度被精确地“锚定”在图像信息中,而不可见部分的补全则在这个约束框架下进行生成。最终的三维重建,既忠实于输入图像,又具备了完整的空间结构。论文中展示的案例覆盖了静态物体、室内外场景,乃至动态世界建模。团队还发布了论文代码、项目主页和 Hugging Face 在线演示,让外界可以直接测试这套方法对任意图像的处理效果。对 World Labs 这样以“空间智能”为核心产品的公司来说,World Tracing 的意义在于:它提供了一条从单张图像出发、直接恢复丰富三维结构的技术路径,不需要多视角输入,也不需要昂贵的三维数据标注。这与 Marble 产品“从图像生成可探索三维世界”的核心承诺高度一致。
Modality Forcing:一个模型,同时理解颜色、文字和深度
深度估计和图像生成,在传统上是两个完全独立的领域,各自需要专门的数据集和独立训练的模型。前者需要精确的深度标注(LiDAR 扫描或双目视觉),后者依赖海量的图文对。两套任务的数据规模差距悬殊——图像生成模型见过数十亿张图,而深度模型的训练数据量通常只是零头。这种不对称催生了一个自然的问题:能不能让已经在海量图文上训练好的文生图模型,直接学会对深度的感知?Modality Forcing 给出了肯定的回答,而且走得更远。- 论文标题:Modality Forcing for Scalable Spatial Generation
- 论文地址:https://arxiv.org/abs/2606.13676
- 项目地址:https://modality-forcing.github.io/
训练时,RGB 和深度各自被加入不同程度的噪声,各自接受独立的损失监督;推理时,只需固定某一模态的噪声步为 0(即视为已知条件),对另一模态完整去噪,便能实现图像到深度(I2D)或深度到图像(D2I)的条件生成;两者都加噪,就是联合生成。由于深度在像素空间直接扩散(而非 VAE 的隐空间),模型可以从仅含稀疏深度标注的真实世界数据中学习,不再局限于依赖密集标注的合成数据集。这种思路的优势在于:不需要额外引入独立的深度网络,也不需要为每个任务单独设计架构分支。一个预训练的文生图模型,通过 Modality Forcing 微调之后,就具备了直接感知场景几何的能力。从技术路径来看,Modality Forcing 与近年来流行的多任务扩散模型研究(如 Marigold、Depth Pro、Lotus 等)方向一致,但它的独特之处在于对“生成”与“感知”两类任务的统一处理。深度估计通常被视为一个判别任务(给定图像,输出深度值),而文生图是一个生成任务。Modality Forcing 的贡献在于证明:这两类任务的边界比想象中模糊得多。生成能力的积累,可以直接转化为感知能力的提升,反之亦然。对 World Labs 来说,这项研究的意义延伸到产品层面:Marble 的 3D 世界生成,需要对场景深度的精确理解。一个同时具备生成和感知能力的统一模型,能使 3D 世界的构建更加自洽,避免深度估计模块和生成模块之间的累积误差。
Flex4DHuman:从一段手机视频,“升维”出可合成的动态人体
如果说前两篇论文处理的是静态或通用场景,那么 Flex4DHuman 则将挑战聚焦于一个更具体但同样重要的问题:如何从一段普通的单目视频(比如手机拍摄的日常视频),重建出动态人体的完整四维结构——也就是三维空间再加时间维度。这个问题的难点就在“单目”这两个字上。多目摄像系统可以通过视差直接测量三维坐标,但单目视频丢失了这种几何约束。从单目视频重建运动中的三维人体,本质上是一个欠约束问题:同一段视频序列,理论上对应无数种可能的三维运动轨迹。此前的方法大多依赖优化过程,计算耗时,而且难以泛化到训练集之外的姿态和外观。Flex4DHuman 由 Yipeng Wang 担任项目负责人,第一作者为 Jen-Hao Cheng,工作是在 World Labs 实习期间完成的。- 论文标题:Flex4DHuman: Flexible Multi-view Video Diffusion for 4D Human Reconstruction
- 论文地址:https://arxiv.org/abs/2606.13655
- 项目地址:https://andy-cheng.github.io/Flex4DHuman/
这个设计带来一个关键优势:不需要骨架估计(skeleton)、深度图或法线图等显式几何先验,仅凭相对相机姿态就能驱动多视角视频的同步生成。这与之前的主流方法(如 Diffuman4D 依赖 SMPL 骨架、MV-Performer 依赖深度和法线渲染)形成了鲜明对比。给定一段单目参考视频和目标相机姿态,模型直接输出在时间上同步、视角上一致的多视角视频序列;再将这些多视角视频送入 FreeTimeGS 重建管线,即可得到动态 4D 高斯表示(4D Gaussian Splats)。这套流程将视频扩散模型的强大外观先验和 4D 高斯的高效渲染能力结合起来,使得从一段跳舞视频或行走视频出发,可以将其中的人物“升维”为完整的动态 4D 资产,再合成进任意 3D 场景。这对数字内容创作、虚拟制片和 AR/VR 应用来说,价值非常直接。论文还验证了该方法超出人体的泛化性:同一个模型经过少量微调后,可以推广到多物种动物的多视角生成,在跨物种零样本测试中仍然保持较强的性能,说明方法的核心设计不依赖人体特有的几何假设。论文在 DNA-Rendering 和 ActorsHQ 两个基准上进行了评测。和同样基于单目参考视频的 Diffuman4D-mono-skeleton 相比,Flex4DHuman 在 DNA-Rendering 上 PSNR 提升了大约 9.3 dB;在零样本的 ActorsHQ 测试集上,PSNR 也高出对手约 3.4 dB。从更宏观的视角看,Flex4DHuman 代表了“2D 视频数据赋能 3D 世界建模”这一技术路线的一个典型样本。手机视频是人类日常生产最多的数据形式,如果能够高效地从中提取四维信息,将极大扩展 3D 世界模型的训练数据来源。
联创 Christoph Lassner 宣布离职
就在三篇论文发布的同一天,World Labs 的联合创始人 Christoph Lassner 在 X 平台发帖,宣布自己将离开公司,开启下一段旅程。Lassner 是 World Labs 四位联合创始人之一,另外三位是李飞飞、Justin Johnson 和 Ben Mildenhall。他长期从事计算机视觉与计算机图形学交叉领域的研究,专注于从 2D 图像和视频中恢复可用的三维内容。在加入 World Labs 之前,Lassner 的职业轨迹覆盖了多个行业前沿。他曾在初创公司 Bodylabs 工作,该公司后被亚马逊收购,专注于基于图像的三维人体建模;在亚马逊期间,他主导开发了 Amazon Halo 智能手环的三维体型估算系统,用户仅需手机自拍,即可获得精确的三维身材模型。此后,他先后在 Meta Reality Labs Research 和 Epic Games 主持研究团队,深耕神经渲染和 NeRF(神经辐射场)相关技术,2022 年 Meta Connect 大会上展示的实时辐射场渲染演示,正是他所在团队的成果之一。他还开发了 Pulsar 渲染器——一种基于球体基元的可微分渲染器,后来成为 PyTorch3D 的后端组件之一,在学术界得到广泛应用。Lassner 于 2024 年初与李飞飞等人共同创立 World Labs。公司于同年 9 月从隐身状态中走出,以约 10 亿美元估值完成 2.3 亿美元融资,投资方包括 NVIDIA、AMD、Adobe 和 Databricks 旗下的风险投资机构。2026 年 2 月,World Labs 完成了由 Autodesk 领投的 10 亿美元新一轮融资,估值跃升至约 50 亿美元。三篇论文的致谢列表中均出现了 Lassner 的名字,意味着他在职期间积极参与了这些实习研究项目。对于离职的原因,Lassner 在公开声明中做了坦诚的说明:过去几个月里,他经历了几起个人事故,其中包括一次造成多处骨折和脑震荡的意外,目前仍在恢复中。这段强制休息的时间让他有机会重新审视自己的处境,并做出了退出日常运营职务的决定。他同时表示,将继续以顾问身份支持公司,并对李飞飞、Justin Johnson 和 Ben Mildenhall 在这一决定过程中给予的理解和支持表达了感谢。在向公司内部团队发送的信件中,Lassner 写道,他“深信 World Labs 以及我们正在构建的事业的重要性”,公司目前所处的强劲位置让他确信此刻是交棒的合适时机。他表示,自己下一步的计划尚不明确,但“对即将到来的事感到兴奋”。结语
三篇论文同日亮相,对 World Labs 来说是一个值得记录的时间节点。这家公司自 2024 年创立以来,主要以技术博客和产品的形式与公众见面:Marble 世界模型的内测与公测、World API 的开放、Spark 2.0……而这次是公司首次以 arXiv 预印本的形式正式发表学术论文。对于这次的集体亮相,联合创始人 Justin Johnson 在 X 上的评论也许最能说明其背景意涵:“3D 是一个令人兴奋的领域,我们仍在摸索正确的任务定义、问题形式、模型架构,以及最佳的扩展方式。我们在这里分享一些想法,由一批出色的实习生主导完成。”语气谦逊,但方向很清晰——World Labs 正在将“空间智能”的研究路线推向更深处,并且愿意在这个过程中,与学术社区分享自己的思考。
热点追踪提示词
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:李飞飞空间智能公司一次性发布三篇论文要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点AI热点2026-07-05 16:52
Mac M系列芯片运行Codex Hugging Face插件卡顿性能优化指南
在MacM系列芯片上使用Codex插件出现卡顿,主要源于默认运行模式未适配AppleSilicon架构。首先需确认VSCode是否通过Rosetta转译运行,并强制其以ARM64原生模式启动。随后配置专为ARM64优化的Python虚拟环境,安装支持MPS加速的PyTorch,并在插件中切换解释器。同时调整HuggingFace参数,启用CoreML、强制使
AI热点2026-07-05 16:52
Figma AI跨平台交付开发Dev Mode查看指南
启用DevMode后,通过删除线检查CSS兼容性,以px hex格式提取跨平台代码,并在Properties页签验证变量映射,避免硬编码“幽灵值”,从而确保开发交付的准确性和一致性。
AI热点2026-07-05 16:52
ComfyUI提示词与IPAdapter的搭配写法
在ComfyUI中使用IPAdapter时,提示词需与参考图形成语义锚定,明确主体身份、风格强化短语及权重标记。多图混合可采用单节点统一加权或多节点并行,权重之和不宜超1 8。避免引导词和抽象描述,改用具体特征如发型、眉形,且侧脸需标明朝向。
AI热点2026-07-05 16:52
Genspark高效梳理新闻事件起因经过
Genspark通过识别起因类型,将事件经过按主体动作、即时反馈、跨域扩散三层动态建模,并支持追问补全因果关系,最终输出带来源锚点和置信度标签的交互式因果图谱,便于直观掌握事件演变脉络。
- 日榜
- 周榜
- 月榜
热点快看
