李飞飞AI初创首秀空间智能四大玩法估值超10亿

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI教程

李飞飞AI初创首秀空间智能四大玩法估值超10亿

热心网友时间：2026-07-01

转载

生成式AI再次迎来了里程碑式的时刻——

就在今天凌晨，斯坦福教授、“AI教母”李飞飞携手她的新团队World Labs，正式发布了首个空间智能AI模型。这项技术的核心能力是：从一张静态图像，直接生成一个可交互的3D世界。

用户只需上传一张图片，模型就能围绕图片中的环境信息，构建出一个范围内完整的3D虚拟空间。更关键的是，这个空间并非静态的渲染图——用户可以在网页端通过鼠标或键盘自由探索。

纵观当前的生成式AI工具，绝大多数仍聚焦于2D内容——图像、视频是主流。而当AI开始直接生成一致且可控的3D内容时，内容创作流程的底层逻辑将被改写。电影制作、游戏开发、VR内容，甚至数字孪生，都可能因此迎来显著的生产效率提升。

World Labs由李飞飞与三位联合创始人Justin Johnson、Christoph Lassner、Ben Mildenhall于今年9月共同创立。公司的核心目标是构建“大型世界模型”，让AI不仅能生成3D世界，更能感知、交互并理解其中的空间逻辑。这也是李飞飞在AI领域的首次创业尝试。目前，该模型仍处于早期测试阶段，用户可通过候补名单申请体验机会，产品正式上线预计要到2025年。

从Midjourney到Sora，再到今天的World Labs，AI内容创作的边界正在以肉眼可见的速度拓宽。英伟达高级研究科学家Jim Fan用一句话精准总结了这段进化史：“GenAI正在创造出更富层次的环境缩影——Stable Diffusion是2D的缩影，Sora是2D+时间维度的缩影，而World Labs是3D、沉浸式的缩影。”

01 由图片一键生成3D环境，World Labs借力打力

从文生图模型诞生之日起，就一直有人在尝试用AI打造3D模型。行业内并不缺乏相关探索，但始终缺少一个标志性的产品。原因主要卡在两个环节：一是高质量3D数据集极度稀缺，难以支撑有效的模型训练；二是即便生成了3D内容，其几何逻辑和画面质量也很难达到电影或动画所需的标准。

World Labs的空间智能模型，选择了与大多数AI 3D生成方案不同的技术路线——它不依赖文字提示直接生成3D内容，而是从图像出发，构建3D环境。

李飞飞团队巧妙地将现有文生图模型（如FLUX、Midjourney、Ideogram、DALL-E等）作为前置工具，来完成“文字→图像”这一环节。这一策略的优势在于：World Labs可以直接兼容不同模型带来的风格多样性，同时，新的AI系统能够继承并保持这些风格特征，在3D世界中进一步延展。

此外，使用AI生成的图像作为基础环境素材，还有一个不可忽视的好处——版权风险的规避。由于基础环境生成来源是已有的文生图模型，World Labs在内容来源的合规性上找到了一个合理的缓冲方案。

举个例子：在FLUX、Midjourney、Ideogram、DALL-E四款模型中输入同一个文字描述——“一间充满活力的卡通风格青少年卧室，床上铺着色彩鲜艳的毯子，书桌上摆放着电脑，墙上贴着海报，还有散落的运动装备。一把吉他靠在墙上，中间放着一张舒适的带图案地毯。窗户透出的光线给房间增添了温暖、年轻的氛围。”

你会得到四种风格迥异的图像：

*从左到右分别由FLUX、Midjourney、Ideogram、DALL-E生成

而World Labs的空间智能模型，能够分别根据这四张图片，生成各自对应的3D环境。来看效果：

由FLUX图片生成的3D环境：

由Midjourney图像生成：

由Ideogram生成：

由DALL-E生成：

从预览中可以观察到几个关键特征：

首先，生成的3D环境本质上是360度全景图像，用户可以在有限范围内探索。网页端通过键盘和鼠标操作，一旦超出边界，画面会显示“越界”提示。其次，风格上，生成的内容环境完整继承了原图的视觉风格，整体美感统一，物品摆放也基本符合现实逻辑。最后，在生成过程中，系统遵循3D几何形态的基本物理规则，使得虚拟环境具有一种“实物感”——与当前某些AI视频的梦幻、漂浮感形成鲜明对比。

有创作者Eric Solorio展示了这个模型如何填补其工作流程中的空白：用户可以安排角色在不同场景中间出现，并指导精确的摄像机运动。“尽管我们只是参与到World Labs模型早期的角色当中，但一切都是如此不可思议。”他还指出，目前不少动漫制作会使用AI生成背景画面，但大多数模型只能生成1至2种风格，而World Labs可以根据不同图片生成对应的风格画面——这在工业流程中的适用性要大得多。

02 打造四大玩法，让3D世界活起来

造一个AI 3D模型并不难，但World Labs选择更进一步——不仅创造了一个3D世界，还让这个3D世界变得更有趣、更可用。在显示风格和交互体验上，团队给出了几个极具方向性的设计。

1、预测用户焦点走向，减小渲染压力

World Labs的模型能够预测用户关注的焦点走向，这在实际应用中能大幅减少实时渲染的计算压力。一旦3D世界生成，虚拟场景的布局将保持稳定——这意味着用户视线移开再回来，场景不会随意变化。这一思路与VR领域中的注视点渲染技术相似，是降低设备渲染负担的有效方案。

同时，用户可以获得对生成场景的实时控制权。在场景中自由移动时，可以近距离观察花朵的细节，也可以偷头盔视角落里露出的物体纹理。World Labs还支持通过深度图将3D场景可视化，每个像素根据与相机的距离进行着色，从而增强空间深度感。

2、提供三大动画效果，展示不同画面语言风格

在生成3D内容的基础上，World Labs还提供了多种画面呈现方式，帮助用户直观感受不同动画效果下的视觉风格。

比如波浪形效果——画面中的樱花林和树木整体以波浪形态“游动”：

再比如低像素沙画风格：

值得一提的是，创作者Brittani Natali将World Labs技术与Midjourney、Runway、Suno、ElevenLabs、Blender和CapCut等工具相结合，精心设计摄像机路径，在一段视频中展示了多种情绪风格。

3、提供四大交互方式，点击即可简单交互

用户可以利用3D场景结构来构建交互效果。在聚光灯场景下，生成的内容画面显示为：

而在声纳显示效果下，用户每次点击3D场景中的任意位置，画面会呈现出一圈圈扩散的声波信号，提示交互成功：

4、打造虚拟摄像头，自由控制焦距远近变幻

World Labs在生成场景后，用户可以通过虚拟摄像头在浏览器中实现实时渲染。精确控制摄像头角度时，还可以实现艺术摄影级别的画面效果。

例如，模拟场景的景深效果——只有距离相机特定距离的物体才能保持清晰：

*从近及远调整焦距画面变化

同时还能模拟推拉变焦，同步调整摄像机的位置和视野：

*从远及近调整焦距画面变化

03 3个月融资10亿，李飞飞瞄准“空间智能”

在众多AI明星初创公司中，World Labs能够迅速脱颖而出的关键，离不开其灵魂人物——“AI教母”李飞飞，以及背后强大的团队背景。

公司目前有20位成员，不仅涵盖计算机视觉和图形学领域的研究人才，还包括系统工程、产品设计等职能，核心目标是在空间智能的基础模型和产品之间构建反馈闭环，让技术真正落地、服务于用户。

World Labs在今年9月正式亮相后，迅速完成了2.3亿美元的融资，得到了Geoffrey Hinton、Jeff Dean、谷歌前CEO Eric Schmidt等重量级人物的支持。公司估值已超过10亿美元。这样的融资节奏和估值水平，充分说明了行业对李飞飞团队及其研究方向的认可。

在官网中，World Labs明确提出致力于构建“大型世界模型”（Large World Models, LWMs），目标是将AI模型从2D像素的平面，提升到完整的3D世界——包括虚拟和现实世界，并赋予这些模型与人类相似的空间智能。如今首个AI项目成果公布，我们对李飞飞在“空间智能”领域的坚定决心有了更清晰的认知。

今年10月，李飞飞在接受a16z专访时谈到了她对空间智能的理解。她指出，空间智能不同于苹果提出的空间计算，但空间计算需要空间智能作为底层支撑。空间智能势必会推动新的AI硬件发展——具体是眼镜、头显还是其他新形态，目前还无法确定。

“空间智能是指机器在三维空间和时间中感知、推理和行动的能力——理解物体和事件在三维空间和时间中的位置，以及世界中的交互如何影响这些位置。感知、推理、生成、交互，真正将机器从大型机或数据中心中解放出来，让它进入现实世界，并理解这个丰富多彩的三维、四维世界。”李飞飞这样定义道。

“什么可以将机器人大脑的学习和行为与现实世界的大脑连接起来？它必须是空间智能。”

来源:https://www.aiagiai.com/6529.html

上一篇：智能体风口来袭华米OV用AI改命

下一篇： LeCun与奥特曼达成共识承认AGI5到10年降临LLM注定死路一条