谁将率先突破全模态世界模型技术瓶颈

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

谁将率先突破全模态世界模型技术瓶颈

热心网友时间：2026-05-17

转载

全模态世界模型这条路，谁会先跑出来？

从DeepMind到阿里、腾讯，各路顶尖玩家正涌入“世界模型”这个新战场。但大家争夺的，远不止是算力与资源，更核心的较量在于：究竟什么样的架构，才能真正构建起对物理世界的理解？

过去一年半，世界模型已然成为AI领域竞争最密集的焦点。参与者名单几乎涵盖了所有前沿方向：全球科技巨头、视频生成公司、机器人公司、游戏引擎厂商，乃至自动驾驶企业，无一缺席。

海外，DeepMind发布了Genie 2，通过生成下一帧预测为具身智能创建训练场；英伟达有Cosmos世界模型；李飞飞创立的World Labs估值已冲上50亿美元；图灵奖得主杨立昆也携10.3亿美元重金创业，专攻此道。国内，小鹏汽车上线X-World，智元机器人等也相继发布自研世界模型。到了今年4月，阿里、腾讯更是在48小时内先后下场，字节跳动蓄势待发，世界模型正式被推上了战略必争的牌桌。

为何如此重要？因为世界模型是具身智能与机器人落地的底层前提，是游戏、工业仿真、数字孪生走向下一代的入口，更是AI从“聊天”走向“行动与造物”的关键分水岭。谁先建立起对物理世界的完整建模能力，谁就可能掌握下一代AI的话语权。眼下，其在内容生成、影视特效、游戏开发、工业仿真等领域，已经显露出切实的商业价值。

但热闹归热闹，一个最基础的问题依然悬而未决：世界模型，到底是什么？

01 世界模型，AI下一个“必争之地”

说起来可能有点意外，今天宣称自己在做“世界模型”的公司，超过一半可能根本没做——因为行业至今没有统一定义，十位专家或许能给出十种说法。

目前主流的探索大致分为三条路线：一是以杨立昆为代表的状态预测路线，致力于构建显式状态空间，让模型学会预测下一个世界状态，这条路更偏向具身智能，强调对物理规律的先验建模。二是以李飞飞及Google为代表的3D交互路线，目标是构建可交互的三维世界形态。三是从视频生成出发的路线。这条路径相信，很多对世界的理解可以从大规模数据中直接涌现，未必需要预先构建显式状态空间，也不完全依赖强先验知识。

然而，这三条路线都面临一个共同的拷问：模型或许能生成逼真的画面，但如何才能真正理解物理世界，并做出精准的行动决策？

尤其在具身智能场景，机器人需要精准判断物体材质、抓取力度，微操作偏差一毫米就可能给生产线带来巨大损失。比如状态预测路线，本质是统计建模，一旦遇到新工厂、新家居环境等长尾变化，统计规律很容易失效；3D交互路线，虽能还原视觉空间，却难以推导出摩擦力、接触力等执行层面的物理量；而视频生成路线，追求的是下一帧像素是否逼真，而非整个动作序列是否真实有效。

这些问题暴露了一个共同缺口：用单一或有限的模态，无法完整描述一个全模态的物理世界。语言描述不了摩擦系数，视频也捕捉不到力反馈。

“目前所有主流模型架构，都不能支撑将来真正的世界模型，所以必须做架构创新。”智象未来创始人兼CEO梅涛指出。在众多路线的争议中，智象未来的判断是：真正的世界模型必须是全模态的，能够任意输入、任意输出，并与物理世界彻底打通。下一代模型架构竞争的关键，不是单一模态能力的简单叠加，而是要从多模态走向全模态，以原生统一的架构，对物理世界进行原生、全模态的统一建模。

基于这一判断，2026年4月，智象未来正式发布了新一代原生全模态世界模型架构及图像大模型 HiDream-O1-Image，采用了全球首创的UiT架构。这标志着其技术路线进一步明晰：从视觉生成的多模态大模型，坚定地走向原生全模态世界模型。

作为该架构落地的首个重磅产品，图像大模型HiDream-O1-Image的闭源版本参数达到千亿级别，在六项业界标准Benchmark中达到SOTA水平，超越了Google的Nano Banana 2、GPT Image 1等主流模型。同时发布的还有8B开源版本，适配本地部署和低代码智能体调用场景。

全模态世界模型这条路，谁会先跑出来？

智象未来联合创始人兼CTO姚霆解释了为何选择图像作为切入点：“图像是世界建模的空间基底，它定格了现实世界瞬时时刻的完整状态信息。”在他看来，图像并非独立于视频的单点能力，而是视频生成乃至通向原生全模态世界模型的关键入口。

从技术侧看，当前视频生成链路中，80%到90%的问题根源其实在前端的图像阶段——图像没做好，视频一定做不好。从成本侧考虑，图像也是最适合进行规模化扩展的切入点。智象未来的实践表明，先以图片模型验证架构可行性，再将架构迁移至视频模型，可将训练成本控制在行业平均水平的1/5到1/10。在UiT原生统一架构下，图像与视频训练能够协同进行、相互增强，从而为模型进一步走向全模态奠定基础。

放眼全球技术版图，智象未来与World Labs、Pika Labs、Physical Intelligence分属不同路径。Pika以视频生成为核心产品方向，而智象未来的目标指向全模态世界模型。World Labs更强调空间建模与空间智能，智象未来则并不锚定于空间这一单一维度，而是在架构层面寻求全模态能力的原生统一。Physical Intelligence的切入点是机器人控制与动作智能，智象未来在现阶段并未从具身控制端直接进入，而是优先构建统一的生成式底座，以此打通对物理世界的表达、理解与重构能力。某种意义上，它更接近中国世界模型版图中一个关键的生成式能力方案提供者。

02 十年视觉，专注架构创新

在通往全模态世界模型的赛道上，不少玩家是在资本热潮中入场的。而智象未来进入这个领域的时间，要早得多。

早在2017年，这支团队的核心力量还在微软亚洲研究院时，梅涛就已带领团队提出了TGANs-C，这是全球最早的“文本生成视频”模型之一。彼时距离Sora问世还有整整七年。当年那篇论文的作者，如今全部都在智象承担核心基模研发工作。在视觉生成这条技术线上，他们的积累已超过十年。

离开微软后，团队加入京东，将视觉能力相继落地于京东商城APP上的“拍照购”功能，以及物流仓里的智能机械臂等产品。面对京东超1000万自营SKU中从易碎品到异形件的复杂品类，这套机械臂系统实现了毫秒级视觉识别与动作预测，能精准识别并抓取超过10万种不同商品，单台设备分拣效率达到约510件/小时，且能7×24小时稳定运行。

这段经历让团队积累了视觉能力在严苛工业场景中落地的宝贵经验，也让他们开始意识到当时那套能力的边界与上限。

2024年，ChatGPT引爆大模型浪潮，Midjourney让图像生成第一次大规模进入大众视野，团队判断这一方向蕴藏着“更大场景的可能性”，智象未来由此成立。

从2024年创立至今，智象未来在模型架构上保持着极快的更新节奏，基本形成一年一代的演进步伐。作为国内最早布局多模态大模型的团队之一，智象发布了基于 DiT 架构的产品vivago.ai，并在全球首次推出全新的“扩散自回归”模型架构。相较于单一生成路径，这一范式更强调性能与效率的平衡，在生成质量、时序一致性和可控性上持续突破行业标准。其背后，体现的是团队对模型底层架构创新的长期坚持：每一次更新都不是在原有架构上做简单的增量优化，而是对底层逻辑的重新思考与创新。

团队认为，有时候必须去做一些难而正确的事。而在几个关键技术节点上，他们都抓住了突破口，在某些时间节点上比同类方案早了3到6个月。这并非所有团队都能跨越的门槛。

为何要持续押注架构创新？梅涛给出了一个分析：创业公司没有大厂的生态优势和充沛算力资源，因此不应简单地走跟随路径，而是要在世界模型的关键节点上，寻求独特的创新突破。智象未来结合自身技术优势，聚焦底层模型架构，从图片生成模型、视频生成模型，转向原生全模态世界模型架构，目的就是通过模型架构创新来提高性能天花板，用更少的成本跑出更高的上限。

要理解这次原生全模态架构升级的意义，需要先了解传统DiT架构的内在局限。

传统DiT的做法是让文字、图片、视频、动作等各自独立编码，然后在隐空间里交互，再解码输出。多个模态分别编码、压缩、拼接，必然存在信息损失，这被认为是当前图像、视频生成中精度损耗与输出不可控的主要原因之一。

智象UiT架构的核心改变在于：将文字、图片、视频、动作等的Token，以更接近原始信号的形式直接输入统一模型，实现原生全模态的统一编码与处理。这使得模型第一次具备了跨模态的“连续理解能力”，而不仅仅是简单的模态对齐。梅涛强调，“不是今天有一个模型就能自然做成世界模型，世界模型必须是一个原生全模态架构的问题。”

除了架构的持续创新，梅涛还提出了一套判断标准，用以区分真正的世界模型与仅仅是视觉模拟器的工具。这套标准包含三个要素：

第一，原生全模态表达——能够表达全世界所有模态的信息，包括视觉、动作、传感器数据、天气等等，而不只是某一类模态。第二，推演能力——能够结合物理规律、因果关系去做可验证的推理，而不只是生成看起来合理的画面。第三，构造世界的能力——不只是“model the world”（建模世界），而是“mold the world”（塑造世界），能够构造和重塑世界，而不只是描述或理解它。

简言之，要同时具备表达世界、推演世界、构造世界的能力。

HiDream-O1是智象向这三个方向迈出的第一步。它标志着公司开始从以视觉生成为主的产品形态，向面向物理世界建模的方向转型。梅涛没有回避这一步的阶段性，“它是我们在不断探索前沿技术过程中的一个阶段性认知。如果你想做世界模型，就一定要不断推动底层技术往前走。”

就在HiDream-O1发布前不久，智象未来还与诺亦腾机器人宣布了战略合作，通过“真实数据+生成式视频数据”的融合范式，共建高精度、规模化的具身视频数据，把技术能力扎进了具体的工程场景。

全模态世界模型这条路，谁会先跑出来？

具身智能的发展亟需高质量多模态数据，但传统采集方式成本高、效率低，穿戴式动捕设备还容易对人体形态、遮挡关系产生干扰，形成明显的“视觉鸿沟”。智象未来与诺亦腾的合作，正是为了填上这道沟。诺亦腾用高精度动捕设备采集真实的物理反馈数据，智象未来则负责将这些原始传感数据进行百倍以上的精细化放大与增强，预计年内将共同产出数万小时高质量具身智能视频训练数据。

普通的通用视频生成模型往往以视觉效果为导向，容易出现内容幻觉或物理逻辑矛盾。而智象未来的自研模型能基于动捕数据进行高可控的生成式优化——既能确保每一帧视频都与底层操作数据精准匹配，又能极大丰富场景、光影及人体形态的复杂度，从而更贴合具身智能企业对于高精度训练数据的苛刻需求。

这种能力上的质变，划定了智象未来的战略分水岭：如果只停留在更高质量的视频生成层面，本质上仍是在AIGC工具赛道内竞争；而更进一步，打通原生全模态架构、真实动作数据、交互视频以及生命科学等更复杂场景，它很有可能在中国世界模型生态中，占据更靠近底层基础设施的关键位置。

03 1+1+3：从模型架构创新到商业闭环

世界模型的架构迭代方向明确之后，下一个现实问题便是：如何转化为可执行的商业路径？

智象未来在内部构建了一个“1+1+3”的业务架构：以1个HiDream系列原生全模态大模型为技术底座，1个HiHarness-Token Hub平台提供标准化的模型能力输出，在此之上初步延伸出三大场景应用。

其中，HiHarness-Token Hub平台是今年技术落地的第一优先级。它在底座与具体产品之间，承担着统一调度与能力编排的“中台”职能。这层平台汇集了模型能力、API能力、行业Know-how与技能编排能力，同时集成了第三方与开源模型。目前，平台已对外开放300多个API，接入超过100家KA客户，累计调用次数超30亿次，支持订阅制、行业定制及私有化MaaS服务。

而“3”，则是指围绕三大核心场景的AIGC产品线：

在AIGC社媒创作领域，面向专业创作者，打造一站式AI Agent创作工具vivago.ai。通过自研的3D video模型与推理加速技术，将特效生成速度提升至秒级。该产品已覆盖全球超3000万专业用户，其中80%为海外用户，今年一季度单月新增用户就超过千万。

在AIGC商业营销领域，构建了线上跨境电商短视频营销与线下智能营销的一体化产品能力。线上，HiBurst平台致力于解决商家营销创意不足、素材生产效率低、跨平台适配成本高等难题，已成为TikTok前五大AI合作伙伴；线下，软硬件一体的智能营销终端HiDreamFans已服务全国超万家实体店铺，今年一季度销售额已超过去年全年。

在AIGC影视创作领域，发布了全球首个专业级AI影视创作协作智能体——“帧赞”，以电影级画质生成和“创意-分镜-成片”全流程打通为核心能力。目前，智象已累计制作短漫剧超过5000分钟。采用“帧赞”作为AI技术支持的奇幻悬疑AI仿真人短剧《秦岭青铜诡事录》，上线仅12小时便冲至腾讯视频竖屏热播榜第一，成为2026年AI短剧赛道的标志性爆款。

一些新的业务线也在快速崛起。除了前述在具身智能赛道的拓展，智象已与百图生科深度协同，共建微观世界模型，用于分子动力学理解，赋能生物医药创新。

这一系列布局，是智象未来“全模态世界模型”底座能力的自然外溢。有行业观察人士指出，许多具身智能公司低估了一件事：没有强大的视频生成底座，这条路很难走远。而随着模型能力的升级，智象未来生成的视频精度已达毫米级，完全能够满足具身智能训练大模型时对监控和标注的苛刻要求。梅涛进一步预测，未来，得益于在数百万小时视频数据上学到的规律，“如果我们要做一个端到端的具身智能模型，需要的数据小时数，可能只是一些公司的十分之一，甚至百分之一。”

从商业营销、社媒和影视创作，到具身智能与生命科学，智象未来“3”的业务边界还在不断延展。而这最终都指向了这家公司对自身长期竞争力的深层思考：模型创新力、产品迭代力、商业生态力。这三层能力相互依赖，任何一层单独成立，都不足以支撑一家致力于长期创新的大模型技术公司。

从单一视觉到多模态，再到全模态统一表征，这不仅是世界模型技术进化的必经之路，更是通往AGI（通用人工智能）的关键里程碑。当行业逐渐达成一个共识——掌握全模态能力即掌握下一代智能的钥匙时，这场关于“物理世界建模”的终极命题，其实才刚刚拉开序幕。

来源:https://tech.ifeng.com/c/8sj7Do4qLfn

上一篇： DeepSeek开眼功能上线引发AI行业震动

下一篇： CVPR 2026北京论文分享会报名开启线下深度交流前沿视觉技术