视觉推理如何推动物理世界AGI发展ElorianAI获5500万美元融资

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

业界动态

视觉推理如何推动物理世界AGI发展ElorianAI获5500万美元融资

热心网友时间：2026-05-12

转载

说起AI大模型，大家可能都有个印象：它们在编程、解数学题这些“烧脑”事上，已经能轻松超越普通人。比如，Anthropic内部据说已接近完全用AI来编程；Google的Gemini Deep Think在2025年国际数学奥林匹克竞赛中，6道题做对了5道，达到了金牌水准。但有趣的是，一旦切换到视觉推

说起AI大模型，大家可能都有个印象：它们在编程、解数学题这些“烧脑”事上，已经能轻松超越普通人。比如，Anthropic内部据说已接近完全用AI来编程；Google的Gemini Deep Think在2025年国际数学奥林匹克竞赛中，6道题做对了5道，达到了金牌水准。

但有趣的是，一旦切换到视觉推理这个赛道，情况就大不一样了。即便是目前顶尖的Gemini 3 Pro，在测试基础视觉推理能力的BabyVision基准上，表现也只相当于一个3岁孩童的水平。

为什么会有这种“偏科”现象？根源在于当前主流模型的“思考方式”存在先天限制。现在的视觉语言模型，其工作流程本质上是“两步走”：先把视觉信息转换成文字描述，再基于这些文本进行推理。问题在于，很多视觉任务——比如空间关系、动态过程——根本无法用文字精确、完整地描述。这个“翻译”过程中的信息损耗，直接导致了模型视觉推理能力的瓶颈。

正是看到了这个根本性障碍，两位行业老兵决定联手破局。在Google DeepMind深耕14年的Andrew Dai，与苹果资深AI专家Yinfei Yang共同创立了Elorian AI。他们的目标很明确：将模型的视觉推理能力从“儿童级别”提升到“成年级别”，让AI学会在“视觉空间”里进行原生思考，从而向理解物理世界的通用人工智能（AGI）发起冲击。

这家雄心勃勃的初创公司，已获得由Striker Venture Partners、Menlo Ventures和Altimeter联合领投的5500万美元早期融资，49 Palms以及包括Jeff Dean在内的多位顶尖AI科学家也参与了投资。

多模态模型的先驱，想让视觉模型拥有推理能力

要理解Elorian AI想做什么，得先看看是谁在做。联合创始人Andrew Dai，剑桥计算机本科、爱丁堡机器学习博士，2012年加入谷歌，一待就是14年，直至创业。

图片来源：Andrew Dai的linkedin

他不仅是谷歌大模型演进的核心参与者，从PaLM到Gemini系列都有他的深度贡献，更是一位在学术上奠定过基础的研究者。他与Quoc V. Le合著的《Semi-supervised Sequence Learning》为GPT的诞生铺平了道路；另一篇关于混合专家模型（MoE）的论文《Glam: Efficient scaling of language models with mixture-of-experts》，则为如今主流的高效大模型架构扫清了障碍。2023年，在Jeff Dean的安排下，他开始领导Gemini的数据板块，团队规模达数百人，专注于包括合成数据在内的核心数据工作。

图片来源：Google

另一位联合创始人Yinfei Yang，则在多模态领域有着深厚积累。他曾在Google Research工作四年，专注于多模态表示学习，之后加入苹果负责多模态模型研发。他参与的研究《Scaling up visual and vision-language representation learning with noisy text supervision》对推动多模态学习发展起到了关键作用。

图片来源：Yinfei Yang的linkedin

图片来源：arxiv

团队还包括曾担任哈佛大学助理教授的Seth Neel，一位数据和AI领域的专家。如此阵容，意味着他们瞄准的不是简单的工程优化，而是底层架构的范式革新——让AI的智能理解从以文本为基，升级到以视觉为基。

现状是，即便最先进的多模态大模型，在面对基础的视觉对齐任务时也常常力不从心。比如，如何将一个零件精准地安装到一套机械装置中？这种涉及空间和物理关系的任务，对人类孩童来说可能都很直观，但对现有模型却异常困难。

生物学或许能给我们启示。在人类大脑中，视觉是支撑众多高级思维过程的底层基质。人类利用视觉和空间进行推理的历史，远比使用语言逻辑悠久得多。教别人走迷宫，用语言描述往往令人困惑，画张草图却一目了然。甚至候鸟也能凭借视觉识别地理特征，完成跨越大陆的迁徙。这强烈暗示，视觉才是机器实现高级推理能力更本质的路径。

那么，如果从一开始构建模型时，就将这种生物本能“编码”进去，打造一个能原生“理解”并“处理”文本、图像、视频和音频的模型，结果会怎样？Andrew Dai的团队正是想构建这样一个天生的“通感者”，让机器不仅“看到”像素，更能“看懂”世界背后的结构、关系和物理法则。在他们看来，深刻认知真实的物理世界，是实现下一代机器智能飞跃、最终触及“视觉通用人工智能”的关键钥匙。