文生视频先驱者如何构建虚拟世界模型

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

文生视频先驱者如何构建虚拟世界模型

热心网友时间：2026-05-18

转载

视频生成领域，正迎来它的“GPT-3.5时刻”。

“创业只能挣到自己认知范围内的钱，认知范围外是一个巨大的陷阱，把我们这帮青蛙陷在井里。”智象未来创始人兼CEO梅涛用这句话，道出了当下AI创业的深层挑战。焦虑的根源往往不是技术或资金，而是认知的边界。如何跳出这口井？他的答案是：持续自我迭代、激发团队碰撞、借助朋友圈的刺激。

最近，全球权威AI模型评测平台Artificial Analysis的文生图榜单更新，智象未来的开源模型HiDream-O1-Image跻身前列，位列开源模型第一。这个被业界誉为“AI领域Gartner”的榜单，其排名颇具分量。

走进智象未来合肥的办公室，一面由AIGC生成的动漫风格员工照片墙格外醒目。这家公司的核心业务是图像和视频生成——用AI技术重塑自身形象，成了他们的第一课。

梅涛的会客厅里，则是另一番景象：满墙的合影，记录着他与全球人工智能行业半壁江山的交集。从微软到京东，从投资人到合作伙伴，每一张照片背后，都是一个关于技术、趋势与友谊的故事。

成立四年，智象未来经历了数次关键转向：从图像、视频生成到原生全模态世界模型，从工具到共同创作者（co-creator），从DiT架构迭代到UiT架构。每一次转向，都是一次对原有认知的突破。

这里需要解释一下两种架构思路：以Sora为代表的DiT架构，将图像或视频拆解为大量细小单元进行推演，能生成细节丰富、视觉冲击力强的结果。而UiT思路则更进一步，它将文本、视觉信息和控制条件纳入同一个模型空间，由统一的Transformer直接完成对齐、理解与生成，让理解与生成的过程更统一、更高效。

智象未来这次，正是用UiT架构，让一个8B参数的模型打出了超越56B模型的效果。对用户而言，最直接的感受就是：模型更能理解意图，生成效果更稳定，复杂的修改也更容易一步到位。

当下的时间点颇为微妙。年初，Seedance2.0将AI视频生成从“能用”推向“可控且可规模化”。近日，快手计划分拆旗下视频生成大模型业务可灵AI，并以约200亿美元估值寻求融资。商业化、资本化与模型能力同步提速，意味着视频生成正成为生成式AI的核心战场。

赛道升温，初创公司阵营也开始分化。除了智象未来，爱诗科技、生数科技等头部公司同样吸引着资本和用户的涌入，行业格局在加速固化。

在这场竞争中，智象未来并非融资最多或体量最大的玩家。东方富海合伙人王兵选择投资，看中的是其强大且稳定的底层技术班底。梅涛本人就是视频生成领域的开创者之一——2017年全球首篇文生视频论文的作者。更难能可贵的是，论文的核心研究团队至今仍在公司，保持了极高的稳定性。“最终能获得持续资金的公司，一定是人才密度最高的公司，这是所有行业的通则。”王兵总结道。

与此同时，一个更宏大的赛道正向视频模型公司敞开大门：具身智能世界模型。新的资本正在涌入。Yann LeCun的AMI Labs在2026年3月完成10.3亿美元种子轮；李飞飞的World Labs在2026年2月完成10亿美元融资。仅2026年年初至今，就有超过13亿美元流向世界模型赛道。

当“世界模型”成为热词，智象未来提出这个概念，是为了讲故事吗？梅涛的回答是否定的。早在2022年，他就带领团队在京东亚洲一号物流仓研究机器人如何识别海量包裹进行分拣。创业之初，团队也在具身智能和视觉生成两个方向间深度权衡，最终选择了视觉生成。而到2024年，公司内部已在深入讨论世界模型。“做视频生成模型的这波人，是最有可能把世界模型做成的。”梅涛笃定地说。

智象未来CTO姚霆进一步阐释了公司的核心逻辑：做视觉创作，核心是解决创作本身的问题。无论是面向影视、营销行业，还是为机器人生成训练内容，本质上都属于创作。在服务不同行业的过程中，沉淀对应的行业知识，将其转化为功能，未来随着智能体发展，这些功能就能沉淀为具备行业属性的“技能”。

世界模型：视觉生成公司的新故事与底牌

在一次内部讨论中，智象未来的团队在白板上用红笔写下了“mold the world”——既指建模这个世界，也指构建世界。这概括了他们对世界模型的雄心。

在梅涛的构想中，世界模型需要三大要素：第一，学会各种模态的表达，对整个世界进行建模；第二，能够结合物理规律和因果关系进行推理；第三，能够按照想象重建物理世界。

目前，业界对世界模型的定义大致分为三类：以李飞飞World Labs为代表，强调构建持久、三维、可交互的实体空间；以Yann LeCun为代表，认为它是智能体内部用于预测的抽象模块；以DeepMind为代表，主张“视频即世界”，将视频生成作为世界模型的表现形式。

在投资人王兵看来，到2026年，行业共识逐渐清晰：无论是视觉语言模型还是世界模型，核心都是底层基模能力。世界模型的本质，是训练出一个能理解并预测物理世界的大模型。不具备大模型训练能力的公司，很难真正做好这件事。而拥有视频模型训练能力的公司，已经具备了世界模型训练的基础。从文艺创作类视频模型拓展到具身智能世界模型，本质上是将训练数据替换为符合物理规律、面向具体场景的具身数据，其训练方法和工程能力是一脉相承的。真正的关键，在于场景数据的选择、规模和标注质量。

正因如此，具身智能成了智象未来切入世界模型的突破口。

作为机器人数据公司诺亦腾的创始人，戴若犁为寻找世界模型的合作方已考察半年。他深知，训练多模态基础模型耗时数月、成本千万，重复研发是巨大的资源浪费。与成熟的视频模型公司合作，是效率更高的路径。在他看来，视频生成模型与具身智能的核心能力是同一个：预测。

戴若犁举了一个例子：训练机器人抓取杯子。传统方法是喂给机器人大量抓取数据，让它学会“看到杯子-伸手-抓住”的动作序列。但一旦杯子的形状、位置、材质发生变化，机器人就可能束手无策。

而采用视频生成模型的思路，机器人会先在“脑海”中预测：如果这样伸手，杯子会怎么动？用这个力度抓，杯子会不会碎？它会模拟整个过程，然后选择最优方案。这种预测能力，正是视频生成世界模型所能赋予的。

诺亦腾的需求很具体：修复动作捕捉数据中的视觉缺陷。例如，动捕手套会遮挡手部，留下视觉盲点；测试场景也过于单一，缺乏多样性。

在考察了国内多家公司后，诺亦腾最终选择了智象未来。除了发现智象未来也有布局具身智能的规划，“手快”是促成合作的关键。提出需求后，智象未来迅速开展了POC验证，并很快得出了积极结论。

负责该合作的CTO姚霆解释了“手快”的原因：一是模型能力已趋成熟，处理数据快，初始精度高；二是公司此前积累了大量的视觉理解任务经验，这类数据生产需要生成能力和理解算法同时到位。

合作于2025年初落地。智象未来利用诺亦腾提供的动捕数据，训练出一个具身智能原型模型。这个模型能够完成抓取、放置、推动、旋转等基础动作，并在执行时自动考虑物理约束。更重要的是，它展现出强大的泛化能力——用杯子训练出的模型，能直接迁移到抓取其他物体上。这种泛化能力，正是世界模型的核心价值所在。

做视频领域的Anthropic

智象未来想成为一家什么样的公司？梅涛的答案是：视频领域的Anthropic。这个类比的标准基于ToB的企业服务模式，也是智象未来选择的商业化路径。Anthropic作为OpenAI的后起之秀，估值已突破1.2万亿美元。

梅涛将大模型赛道分为三层：第一层是拥有流量入口和C端用户的大型互联网公司，如Google、字节；第二层是做基础模型的公司，如OpenAI的Sora；第三层是做各种智能体和垂类应用的公司，如Cursor。

智象未来的定位在第二层与第三层之间——既做模型，也做应用，双轮驱动。但梅涛很清楚，他们的模型不会去追求极致的通用性与大厂硬碰硬，而是基于自身深耕的场景进行优化，做出有特色的模型。

“大模型的能力有点像海平面，一直在往上涨，很多公司就被淹没了。”梅涛用这个比喻描述行业的残酷。那么，什么不会被淹没？要么是足够高的山，要么是随水而涨的船。智象未来的策略是两者兼备：图片和视频模型是那座高山；而三艘“船”则是三个场景的智能体袋里——跨境电商短视频营销、影视制作、面向专业C端用户的社媒内容创作。三者都以ToB为核心。

“在AI的商业模式里，最长久、最健康的应该一定是企业服务。”梅涛分析道，原因在于企业客户复购率极高，随着产品深度增加，客单价可以不断提升，商业天花板远高于C端。反观纯工具型C端产品，用户新鲜感过后留存率低，且Token消耗巨大，成本高昂，若无法让用户大规模付费，很难形成商业闭环。

那么，数据飞轮何时开始转动？梅涛指出了两个已经跑通的场景。

第一个是跨境电商短视频营销。智象未来有一个智能体，专门分析电商平台上的爆款视频，将其拆解、重构成可复用的视频生成模板，提供给跨境商家使用。系统每天更新模板，生成视频后，再根据用户观看反馈决定是继续复用还是放弃。这个完整链路已经运转起来——目前一天能支持商家产出近50条短视频广告。

第二个是面向专业级C端的创作工具。智象未来发现，不同国家的用户偏好截然不同——巴西流行球星相关模板，印度则偏爱舞蹈动作控制模板。如果不通过用户反馈，根本无法洞察这些本地化喜好。目前，其面向专业C端的APP每月新增下载量已超过千万。

第二种更具碘伏性的模式，是RaaS（Results as a Service，按结果付费服务）。梅涛解释，所谓RaaS，就是在提供AI生成服务的同时，直接为客户的商业结果负责，客户愿意按最终的转化效果来付费甚至返佣。

这件事听起来简单，但智象未来摸索了一年半。“直到2024年的七八月份，我们才真正感觉自己活下来了。”梅涛回忆，最初他们试图将AI能力打包成标准SaaS软件出售，但很快发现，当时的视频生成工具使用门槛高，不同用户生成的效果天差地别。“既然效果无法标准化，就很难制定公允的价格，客户也不愿买单。”

转机在2024年夏天到来。借着Sora发布后的市场东风，他们在5月底推出了一款采用类似架构的商业化产品，上线当月便获得了两三百万月活跃用户。如今，该产品的付费用户留存率已稳定在50%以上。

到了2025年底，随着多模态应用爆发、Token消耗激增，以及Seedance等模型的发布，视频模型领域迎来了类似GPT-3.5的智能涌现时刻。梅涛发现，公司的估值也随之出现了显著增长。

进入智能体的世界

智象未来的智能体战略，本质是在搭建两座桥梁：一座通向人类创作者的世界，智能体作为共同创作者（co-creator），帮助人类更好地表达创意；另一座通向智能体的世界，智象未来作为能力提供者，成为机器人理解和生成视觉内容的基础设施。

作为CTO，姚霆最近思考最多的问题就是智能体：如何通过智能体放大公司能力？如何为智能体设计交互？

2026年初，OpenClaw智能体的出现定义了“共同工作伙伴”的概念。“但我们要在此基础上升级成‘共同创作者’。”姚霆说。他对智能体的理解，源于一个更底层的架构思考。他用一个公式描述未来智能化应用的范式：未来的智能化APP等于“安全脚手架”乘以一系列“技能”，底层则是操作系统。

例如，在影视创作场景中，一个“分镜生成”技能，不仅要能根据剧本生成画面，还要理解镜头语言、叙事节奏、情绪表达，甚至要知道短剧、广告、纪录片等不同类型作品对分镜的差异化要求。这种深度的行业理解，绝非调用几个API就能实现。

这也是为什么智象未来要亲自承接影视项目、制作短剧、服务营销客户——为了在真实场景中沉淀出不可复制的行业知识。姚霆预测，未来的技能会像互联网时代的网页一样繁多，评估、筛选、推荐、组合这些技能将成为重要工作。他将这些能力分为四层：

第一层是基础模型能力，以API形式提供给开发者，这是公司的技术底座，也是与大厂竞争的基础。但这一层竞争会日益激烈，利润空间将越来越薄。

第二层是标准化技能，如“文生视频”、“图生视频”、“视频延长”等通用功能模块。其价值在于稳定性和易用性，但差异化空间有限。

第三层是行业定制技能，如“短剧分镜生成”、“产品广告视频制作”。这些技能深度融合了行业知识，是真正的护城河。

第四层是完整的工作流，如“从剧本到成片的短剧生产线”、“从产品图到投放视频的营销自动化”。这些端到端的解决方案串联了多个技能，形成了高价值的竞争壁垒。

“我们和大厂做通用基础设施的路线形成了明显的差异化竞争优势。”姚霆强调，这个差异化就体现在第三层和第四层——那些深度绑定行业、难以复制的高价值能力。

另一个让姚霆投入大量精力的是交互设计。这直接决定了产品能否吸引足够多的用户。“是用命令行、图形界面，还是聊天加画布的形式，甚至是多模态的联动交互。”姚霆认为，只要在交互这一个点上实现突破，就能吸引大量用户。

对于视频模型领域的“顿悟时刻”，姚霆和梅涛有一个共同判断：当用户提供一个剧本，系统就能直接生成符合需求的长视频故事时，那个时刻就到了。至于现在，他们坦言：“这个‘顿悟时刻’还没有到来。”

对话：认知迭代是唯一的护城河

虎嗅：你们布局了跨境营销、影视、具身智能……一直在做加法，有没有做过减法？

梅涛：当然有。我们最初尝试过游戏领域，但发现比较难做。大游戏公司倾向于自建体系；小游戏公司则对成本极其敏感，且往往要求数据私有化部署，难以规模化。所以果断暂停了。

还有一个教训来自线下打印店的素材管理项目。后来我们发现，打印店本身已是夕阳产业，从业者对未来也不确定，学习新技术的速度也慢。我们确实踩过一些坑。

经过四年的探索，我们基本形成了三个可以规模化的ToB方向：第一，线上线下商业体的短视频营销与服务（软硬件一体）；第二，短剧多人协作平台；第三，面向全球用户的媒体创作工具与平台。未来一段时间，我们会集中精力在这三个方向上深耕。

虎嗅：当前视频模型领域仍以“规模定律”为主导，对于资源有限的创业公司，如何与大厂竞争？是靠不断融资吗？

姚霆：融资是必要的，但创业公司的融资规模与大厂相比仍有巨大差距。要竞争，主要靠三点：第一，认知要快。对模型架构、下一代技术的走向和选型判断要精准，认知比大厂超前哪怕三个月，就有很大机会。第二，落地速度快。确定方向后，能快速迭代出模型，并同步推进产品化和商业化，形成产品或用户壁垒。第三，组织架构调整快。创业公司相比大厂的优势就是灵活性高，扁平的组织架构、快速的转身能力，才能应对各种变化，发挥自身优势。

虎嗅：如果有一天智象未来失败了，你觉得可能是什么原因？

梅涛：可能是认知停止迭代了。当然，我觉得这也不太可能发生，因为我们每天都在大量接触新事物。

虎嗅：你怎么定义“认知”？

梅涛：认知包括对技术的认知、对商业化的认知、对竞争态势的认知，涵盖了各个方面。今天的创业对创始人要求极高，你需要懂技术，有技术路线的判断力和前瞻性，还要有商业化的认知、团队健康度的认知、资本化的认知。基本上要求你是一个六边形战士，不能有短板。

虎嗅：那你现在每天最焦虑的是什么？是融资问题吗？

梅涛：不是钱的问题，也不是人的问题，而是认知的问题。我最担心的，是我自己的认知迭代不够快，赶不上行业的迭代速度；以及团队核心成员的认知迭代不够快，甚至不如我快——那就有问题了。创业，你只能挣到自己认知范围之内的钱，认知范围之外是一个巨大的陷阱。我希望大家在认知层面上一定要“卷”起来。

虎嗅：过去这几年，你个人认知最大的一次迭代或碘伏是什么？

梅涛：我觉得我每天都在迭代。Sora的发布，在技术认知上对我是一次深刻的反省。道理很简单，如果相信某一条技术路线，就应该坚持，而不是东试西试。我当时其实觉得DiT方向很好，但没有完全下定决心，因为创业资金和资源有限，没法多条线试错。Sora出来后，我们就坚定了走DiT路线。

虎嗅：但你们不是又转向了新的UiT架构吗？

梅涛：是的。因为如果只拼数据、拼算力，那不是创业公司该干的事。要想用更少的成本、更高效的框架达到下一个阶段的效果，就必须从架构层面重新思考。这也是我们开始做UiT的原因。UiT不是简单换一套模型，而是希望从底层把文本、图像和控制条件统一到同一个模型空间里，让模型更早、更直接地完成理解、对齐和生成。我们认为，这种原生统一的架构，才是从图像生成走向视频生成、乃至世界模型的重要基础。

虎嗅：对于公司未来的发展，你最担心什么？

梅涛：我最担心两点：第一，我选的方向不对，缺乏前瞻性；第二，我的认知成为公司的天花板。我有时会担心，船员发现方向不对却不告诉我。我希望每个人都有自己认知迭代的角度，哪怕跟我不一样也要告诉我，让我有更多“触角”去感知方向是否正确。

虎嗅：现在AI领域人才薪酬很高，你们担心核心团队被“挖角”吗？

姚霆：压力肯定有。我和团队说过，大家聚在一起做这件事不是为了钱，如果只看薪资，都应该去大厂。我们的团队成员，尤其是模型团队的同仁，对模型研发都很痴迷。大家的共识是，想在这个领域做出能被记住的成果，比如以后墓志铭上能留下自己参与研发的知名模型的名字。

虎嗅：你自己希望以后世界以什么记住你？

姚霆：我肯定希望能留下因为我而存在的模型的名字。比如后续我们推出的、被行业广泛认可的出色模型，当大家提及时，知道是我参与做的，对我来说就足够了。

来源:https://www.aitntnews.com/newDetail.html?newId=25180

上一篇： GitHub 20k星开源神器：将全网操作转为命令行

下一篇： AI大模型比拼实用能力谁能更胜一筹