李飞飞空间智能公司一次性发布三篇论文

AI热点日报时间：2026-07-05

热点解读

WorldLabs同日发布三篇技术论文，聚焦利用2D生成模型降低3D内容生成门槛。WorldTracing实现单图像素级三维几何重建，ModalityForcing统一深度估计与图像生成，Flex4DHuman从单目视频重建动态人体4D结构。联合创始人ChristophLassner同日宣布离职。

今天，空间智能公司 World Labs 迎来重大发布——同日推出三篇技术论文。这三篇文章分别由公司实习研究员主导完成，课题方向各有侧重，却共同聚焦于同一核心命题：如何借助已在海量图片数据上训练成熟的 2D 生成模型，进一步降低 3D 内容生成的门槛。值得一提的是，这是 World Labs 首次正式公开发表学术论文。正如联合创始人 Justin Johnson 所言，公司此前虽有多项成果展示，但这三篇确实构成了他们的“首批论文”（first-ever papers）。回到本轮主题：3D 内容生成。说起来容易，做起来却极为艰难。现实世界是三维的，但可用的训练数据绝大多数是二维的——照片、视频、图像，缺乏体积、深度和遮挡关系所构成的完整空间结构。一旦转入三维，训练数据急剧减少，几何一致性的维护复杂度呈指数级上升。过去几年，研究者们摸索出一条可行路径：不从头训练 3D 生成模型，而是将 2D 扩散模型强大的先验能力迁移到 3D 生成任务上。World Labs 此次一口气发布的三篇论文，恰好从不同维度拓展了这条探索之路。

下面就来详细解读 World Labs 的首批论文。

World Tracing：让每一个像素，都指向一个完整的 3D 世界

如果你手上只有一张照片，你能从中还原出多少三维信息？常识告诉我们：非常有限。照片只是现实世界在某一时刻、某一视角的投影，深度信息丢失，被遮挡的后方空间完全不可见。当前主流的单图转 3D 方法，往往会陷入两难境地：要么做深度估计——精确但只能恢复可见表面；要么做生成补全——想象力丰富，但结果经常偏离原始图像的视觉细节。World Tracing 想要做的，是同时打破这两道限制。

论文标题：World Tracing: Generative Pixel-Aligned Geometry Beyond the Visible
论文地址：https://arxiv.org/abs/2606.13652
项目地址：https://haoz19.github.io/world-tracing-page/

论文由 Hao Zhang 主导，团队包括 World Labs 联合创始人 Ben Mildenhall 和 Christoph Lassner，以及 Gengshan Yang 等人。

什么意思呢？World Tracing 为每个像素对应的不只是一个三维点，而是一叠有序的三维点。这叠点记录的是这条视线穿越场景时经过的所有几何层——第 0 层是直接可见的表面，更深的层则逐步揭示被前景物体遮挡的隐藏几何体。这就好比把相机比作一支铅笔：普通深度估计只能画出物体的轮廓线，而 World Tracing 试图画出这支铅笔穿透纸张时另一面的样子。预测这种“深度堆叠”是极高难度的任务，因为遮挡面的几何信息根本没有出现在图像里，模型必须依赖对现实世界空间结构的“常识”进行推断。为此，研究团队采用扩散模型对这组有序深度值建模。扩散模型天然适合处理带有不确定性的分布式预测，而非给出一个确定答案。更关键的是，整个预测过程始终对齐于原始输入图像的像素坐标。可见表面的深度被精确地“锚定”在图像信息中，而不可见部分的补全则在这个约束框架下进行生成。最终的三维重建，既忠实于输入图像，又具备了完整的空间结构。论文中展示的案例覆盖了静态物体、室内外场景，乃至动态世界建模。团队还发布了论文代码、项目主页和 Hugging Face 在线演示，让外界可以直接测试这套方法对任意图像的处理效果。对 World Labs 这样以“空间智能”为核心产品的公司来说，World Tracing 的意义在于：它提供了一条从单张图像出发、直接恢复丰富三维结构的技术路径，不需要多视角输入，也不需要昂贵的三维数据标注。这与 Marble 产品“从图像生成可探索三维世界”的核心承诺高度一致。

Modality Forcing：一个模型，同时理解颜色、文字和深度

深度估计和图像生成，在传统上是两个完全独立的领域，各自需要专门的数据集和独立训练的模型。前者需要精确的深度标注（LiDAR 扫描或双目视觉），后者依赖海量的图文对。两套任务的数据规模差距悬殊——图像生成模型见过数十亿张图，而深度模型的训练数据量通常只是零头。这种不对称催生了一个自然的问题：能不能让已经在海量图文上训练好的文生图模型，直接学会对深度的感知？Modality Forcing 给出了肯定的回答，而且走得更远。

论文标题：Modality Forcing for Scalable Spatial Generation
论文地址：https://arxiv.org/abs/2606.13676
项目地址：https://modality-forcing.github.io/

这篇由 Bardienus Duisterhof 主导的实习研究，核心主张是：文生图本身就可以作为一种可扩展的 3D 推理预训练目标。只要用对训练策略，同一个模型可以在 RGBD 生成、深度估计和深度条件图像生成这三项任务之间自由切换。

训练时，RGB 和深度各自被加入不同程度的噪声，各自接受独立的损失监督；推理时，只需固定某一模态的噪声步为 0（即视为已知条件），对另一模态完整去噪，便能实现图像到深度（I2D）或深度到图像（D2I）的条件生成；两者都加噪，就是联合生成。由于深度在像素空间直接扩散（而非 VAE 的隐空间），模型可以从仅含稀疏深度标注的真实世界数据中学习，不再局限于依赖密集标注的合成数据集。这种思路的优势在于：不需要额外引入独立的深度网络，也不需要为每个任务单独设计架构分支。一个预训练的文生图模型，通过 Modality Forcing 微调之后，就具备了直接感知场景几何的能力。从技术路径来看，Modality Forcing 与近年来流行的多任务扩散模型研究（如 Marigold、Depth Pro、Lotus 等）方向一致，但它的独特之处在于对“生成”与“感知”两类任务的统一处理。深度估计通常被视为一个判别任务（给定图像，输出深度值），而文生图是一个生成任务。Modality Forcing 的贡献在于证明：这两类任务的边界比想象中模糊得多。生成能力的积累，可以直接转化为感知能力的提升，反之亦然。对 World Labs 来说，这项研究的意义延伸到产品层面：Marble 的 3D 世界生成，需要对场景深度的精确理解。一个同时具备生成和感知能力的统一模型，能使 3D 世界的构建更加自洽，避免深度估计模块和生成模块之间的累积误差。

Flex4DHuman：从一段手机视频，“升维”出可合成的动态人体

如果说前两篇论文处理的是静态或通用场景，那么 Flex4DHuman 则将挑战聚焦于一个更具体但同样重要的问题：如何从一段普通的单目视频（比如手机拍摄的日常视频），重建出动态人体的完整四维结构——也就是三维空间再加时间维度。这个问题的难点就在“单目”这两个字上。多目摄像系统可以通过视差直接测量三维坐标，但单目视频丢失了这种几何约束。从单目视频重建运动中的三维人体，本质上是一个欠约束问题：同一段视频序列，理论上对应无数种可能的三维运动轨迹。此前的方法大多依赖优化过程，计算耗时，而且难以泛化到训练集之外的姿态和外观。Flex4DHuman 由 Yipeng Wang 担任项目负责人，第一作者为 Jen-Hao Cheng，工作是在 World Labs 实习期间完成的。

论文标题：Flex4DHuman: Flexible Multi-view Video Diffusion for 4D Human Reconstruction
论文地址：https://arxiv.org/abs/2606.13655
项目地址：https://andy-cheng.github.io/Flex4DHuman/

这个设计带来一个关键优势：不需要骨架估计（skeleton）、深度图或法线图等显式几何先验，仅凭相对相机姿态就能驱动多视角视频的同步生成。这与之前的主流方法（如 Diffuman4D 依赖 SMPL 骨架、MV-Performer 依赖深度和法线渲染）形成了鲜明对比。给定一段单目参考视频和目标相机姿态，模型直接输出在时间上同步、视角上一致的多视角视频序列；再将这些多视角视频送入 FreeTimeGS 重建管线，即可得到动态 4D 高斯表示（4D Gaussian Splats）。这套流程将视频扩散模型的强大外观先验和 4D 高斯的高效渲染能力结合起来，使得从一段跳舞视频或行走视频出发，可以将其中的人物“升维”为完整的动态 4D 资产，再合成进任意 3D 场景。这对数字内容创作、虚拟制片和 AR/VR 应用来说，价值非常直接。论文还验证了该方法超出人体的泛化性：同一个模型经过少量微调后，可以推广到多物种动物的多视角生成，在跨物种零样本测试中仍然保持较强的性能，说明方法的核心设计不依赖人体特有的几何假设。论文在 DNA-Rendering 和 ActorsHQ 两个基准上进行了评测。和同样基于单目参考视频的 Diffuman4D-mono-skeleton 相比，Flex4DHuman 在 DNA-Rendering 上 PSNR 提升了大约 9.3 dB；在零样本的 ActorsHQ 测试集上，PSNR 也高出对手约 3.4 dB。从更宏观的视角看，Flex4DHuman 代表了“2D 视频数据赋能 3D 世界建模”这一技术路线的一个典型样本。手机视频是人类日常生产最多的数据形式，如果能够高效地从中提取四维信息，将极大扩展 3D 世界模型的训练数据来源。

联创 Christoph Lassner 宣布离职

就在三篇论文发布的同一天，World Labs 的联合创始人 Christoph Lassner 在 X 平台发帖，宣布自己将离开公司，开启下一段旅程。Lassner 是 World Labs 四位联合创始人之一，另外三位是李飞飞、Justin Johnson 和 Ben Mildenhall。他长期从事计算机视觉与计算机图形学交叉领域的研究，专注于从 2D 图像和视频中恢复可用的三维内容。在加入 World Labs 之前，Lassner 的职业轨迹覆盖了多个行业前沿。他曾在初创公司 Bodylabs 工作，该公司后被亚马逊收购，专注于基于图像的三维人体建模；在亚马逊期间，他主导开发了 Amazon Halo 智能手环的三维体型估算系统，用户仅需手机自拍，即可获得精确的三维身材模型。此后，他先后在 Meta Reality Labs Research 和 Epic Games 主持研究团队，深耕神经渲染和 NeRF（神经辐射场）相关技术，2022 年 Meta Connect 大会上展示的实时辐射场渲染演示，正是他所在团队的成果之一。他还开发了 Pulsar 渲染器——一种基于球体基元的可微分渲染器，后来成为 PyTorch3D 的后端组件之一，在学术界得到广泛应用。Lassner 于 2024 年初与李飞飞等人共同创立 World Labs。公司于同年 9 月从隐身状态中走出，以约 10 亿美元估值完成 2.3 亿美元融资，投资方包括 NVIDIA、AMD、Adobe 和 Databricks 旗下的风险投资机构。2026 年 2 月，World Labs 完成了由 Autodesk 领投的 10 亿美元新一轮融资，估值跃升至约 50 亿美元。三篇论文的致谢列表中均出现了 Lassner 的名字，意味着他在职期间积极参与了这些实习研究项目。对于离职的原因，Lassner 在公开声明中做了坦诚的说明：过去几个月里，他经历了几起个人事故，其中包括一次造成多处骨折和脑震荡的意外，目前仍在恢复中。这段强制休息的时间让他有机会重新审视自己的处境，并做出了退出日常运营职务的决定。他同时表示，将继续以顾问身份支持公司，并对李飞飞、Justin Johnson 和 Ben Mildenhall 在这一决定过程中给予的理解和支持表达了感谢。在向公司内部团队发送的信件中，Lassner 写道，他“深信 World Labs 以及我们正在构建的事业的重要性”，公司目前所处的强劲位置让他确信此刻是交棒的合适时机。他表示，自己下一步的计划尚不明确，但“对即将到来的事感到兴奋”。

结语

三篇论文同日亮相，对 World Labs 来说是一个值得记录的时间节点。这家公司自 2024 年创立以来，主要以技术博客和产品的形式与公众见面：Marble 世界模型的内测与公测、World API 的开放、Spark 2.0……而这次是公司首次以 arXiv 预印本的形式正式发表学术论文。对于这次的集体亮相，联合创始人 Justin Johnson 在 X 上的评论也许最能说明其背景意涵：“3D 是一个令人兴奋的领域，我们仍在摸索正确的任务定义、问题形式、模型架构，以及最佳的扩展方式。我们在这里分享一些想法，由一批出色的实习生主导完成。”语气谦逊，但方向很清晰——World Labs 正在将“空间智能”的研究路线推向更深处，并且愿意在这个过程中，与学术社区分享自己的思考。

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：李飞飞空间智能公司一次性发布三篇论文要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://www.jiqizhixin.com/api/article_library/articles/2026-06-13-2

World

上一篇：分钟人类第一人称视频零样本教会机器人双臂操作｜马里兰大学HumanEgo

下一篇：Fable 5正式回归，天才程序员再度上线？

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。