蚂蚁开源世界模型Genie 3 具身智能未来已来

昨晚临近午夜,AI视频领域又迎来一次毫无征兆的“深夜冲击波”。蚂蚁集团旗下的具身智能公司——灵波科技,悄然开源了一个名为“LingBot-World”的世界模型。初看之下,这不过是AI圈“内卷”浪潮中的又一朵浪花,但仔细审视其演示案例后,一个清晰的信号浮现出来:AI视频的“无限流”交互时代,或许真的拉开了序幕。

PixVerse发布全新世界模型,终于让AI视频进入了“无限流”时代!
这个模型最震撼之处,在于它实现了真正意义上的“实时生成与交互”。不妨先看一个长达一分钟的第一人称探索案例:
熟悉游戏的朋友或许会觉得,这不过是一个普通的废弃小镇场景。但关键在于,眼前所见的一切——街道、建筑、光影——并非预先渲染好的固定画面,而是根据你按下的每一个方向键,由模型实时动态生成的。你按下“W”,世界就向前延伸;你按下“A”,左侧的景观便随之展开。甚至,你可以输入“下雨了”,天空便会阴云密布;说“来点烟花”,远处的城堡上空即刻绽放出绚烂的花火。
这是一种根本性的范式转变。如果说Sora、Kling这类视频生成模型是“精心剪辑好的电影”,那么LingBot-World则是一个“可实时演算的模拟器”。前者是叙事的终点,观众只能被动欣赏;后者则是世界的起点,探索者拥有了“言出法随,指哪打哪”的创造权。更令人惊讶的是其稳定性,在另一个长达十分钟的古城漫游演示中,场景始终维持一致,几乎没有出现崩溃或严重变形,这与之前一些世界模型几分钟内就“面目全非”的表现形成了鲜明对比。
这种能力让人立刻联想到几个月前谷歌发布的Genie 3,两者技术路线相似,都致力于构建可交互的生成世界。但Genie 3至今仍未开放体验,而LingBot-World不仅拿出了可观的成果,更直接选择了开源。目前,其项目已在GitHub上发布了第一个版本。


根据官方信息,模型将提供三个版本,侧重点各有不同:
LingBot-World-Base (Cam):已开源。专注于相机位姿控制,擅长处理推拉、环绕、平移等明确的镜头运动,适合需要精密运镜的场景。
LingBot-World-Base (Act):待开源。强化了“动作指令”控制,能用更结构化的方式约束主体行为,如行走、转身等,将可控性从镜头扩展到角色层面。
LingBot-World-Fast:待开源。追求低延迟与实时交互,通过结构优化实现流式生成,响应延迟可低于1秒,达到每秒16帧,更像一个实时世界模拟器,虽画质上限可能略低于Base版,但交互体验更流畅。
模型参数量约280亿,推理时约为140亿。纵观其所有演示案例与论文,可以总结出三大核心优势:卓越的长时记忆、强大的风格泛化能力以及新颖的动作袋里机制。
一、长时记忆很稳定
对于世界模型而言,长时记忆能力是基石,甚至可以说是第一生命线。试想一下,在一个交互世界中,如果你推开一扇门进入房间,一回头却发现门消失了,变成了陌生的走廊;再一回头,房间内的陈设也全然改变——这种缺乏记忆的状态,无异于一场“数字鬼打墙”,会彻底摧毁沉浸感与逻辑性。
LingBot-World在这方面表现出了惊人的稳定性。在廊桥漫步的案例中,无论视角如何转动、前行还是后退,周围的建筑始终稳固地存在于它们应该在的位置,遮挡关系也随距离变化而自然改变。
另一个穿越巨兽腹下的演示则更能体现其对空间尺度和时间连贯性的把握。视角真实地穿过了巨兽的横向身躯,整个过程符合物理直觉。相比之下,缺乏记忆的模型很可能在此处陷入“鬼打墙”,让人在局部空间里无限穿梭,无法产生真实的穿越感。
二、风格泛化性极强
许多世界模型往往受限于训练数据,只能在特定风格(如超写实)下表现良好,一旦切换到卡通、奇幻等非写实风格,质量便急剧下降。LingBot-World则打破了这一局限,其风格泛化能力令人印象深刻。
例如在奇幻风格的演示中,角色手持的大剑虽偶有轻微不稳定,但整体世界的质感已接近游戏渲染水平,色彩、光影和物体形态都得到了很好的保持。
这得益于其“海纳百川”式的训练策略。模型将真实世界视频、游戏录像以及UE引擎合成的场景数据“一锅炖”。真实视频教会它物理规律,游戏数据赋予它虚拟世界的交互逻辑,而合成数据则补全了各种极端、复杂的相机视角和运动轨迹。这种类似机器人领域“域随机化”的方法,让模型见识了足够多变的像素世界分布,从而具备了强大的风格适应能力。
三、很棒的动作袋里
如果世界模型只能被动响应方向键,那它终究还是一个高级的“步行模拟器”。LingBot-World的突破在于,它引入了一个“动作袋里”机制。这意味着,当你控制宏观探索方向时,世界内的角色可以基于视觉输入进行自主的运动规划与决策。
在布偶房间的案例中,布偶并非僵硬滑动,而是会根据方向指令在房间内自主移动,遇到沙发时会自然地绕行,避免了穿模这种破坏沉浸感的问题。
另一个赛车场景中,车辆的移动包含了急停、变道等动态,而非简单的匀速滑行。
根据论文,这背后是两条技术路线的协同。一是对用户连续指令的理解,模型能将一个按键动作解释为包含步伐、相机抖动在内的连续意图序列。二是那个独立的AI动作袋里,它像一个内置的“玩家”,观察当前画面,输出接下来几秒的行为指令,驱动世界内的角色自主行动。这创造了一种奇妙的体验:你作为观察者决定探索的大方向,而世界内的智能体则在生成的空间中自主生活与反应。
写在最后
LingBot-World的出现,其意义远不止于一个强大的技术演示。它标志着世界模型这一赛道,正从概念验证快速走向实用化与开源化。世界模型不仅是游戏、影视、娱乐的未来引擎,其更核心的使命在于为具身智能提供一个低成本、高保真的“数字练兵场”。一个能够稳定运行、泛化能力强的虚拟世界,是训练机器人理解物理规律、执行长程复杂任务的绝佳环境。
从Sora到Genie 3,再到今天的LingBot-World,我们正在见证AI从生成静态内容,迈向动态创造并理解整个世界的关键转折。蚂蚁的这次开源,无疑将这一进程向前推进了一大步。当世界模型真正成熟之时,随之而来的,必将是具身智能的井喷,以及AI深度融入实体世界的崭新时代。那或许,才是许多人心中所期待的、真正的AI革命图景。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
质量工程师年终总结撰写指南职责梳理与成就反思方法
适合需求: 质量工程师岗位职责总结 又到一年复盘时。对于质量工程师而言,过去这一年,既是在质量控制、标准制定和流程优化上持续深耕的历程,也是直面挑战、不断突破的见证。以下是基于岗位职责的年度总结与思考。
人事专员岗位说明书:AI写作如何优化招聘与员工管理流程
人事专员负责撰写、更新岗位说明书,确保其准确、有吸引力,以支持招聘与员工管理。需结合公司文化,并具备专业背景与沟通能力。面对细节挑战,AI工具可提升效率;未来AI技术将使岗位描述更精准,助力人才吸引。
AI写作工具轻松搞定年终总结范文与实用提示词分享
AI写作工具可辅助生成年终总结。通过提供具体提示词与范文参考,能高效梳理行政岗位年度工作,涵盖挑战、收获、任务完成情况及团队协作等内容,帮助用户快速完成报告撰写。
财务经理岗位说明书撰写指南与AI工具使用技巧
财务经理在现代企业中至关重要,其职责超越传统记账,需确保报表精准,并通过预算管理与深度财务分析为公司指引方向、规避风险。该岗位要求承担关键责任并具备相应专业能力。
数据可视化软件推荐自动生成图表提升分析效率
数据自动生成图表软件:从入门到精通的完整教程 在数据驱动决策的今天,图表不仅是展示工具,更是分析趋势、传递洞察与支撑决策的核心载体。无论是制作专业的市场分析报告,还是完成学术研究中的数据分析,能够高效地将原始数据转化为清晰直观的可视化图表,已成为一项必备技能。幸运的是,借助强大的图表自动生成软件,这
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

