当前位置: 首页
AI
蚂蚁开源世界模型Genie:10分钟用单图生成长视频

蚂蚁开源世界模型Genie:10分钟用单图生成长视频

热心网友 时间:2026-01-29
转载


智东西
作者 王涵
编辑 云鹏

智东西1月29日报道,今日,蚂蚁灵波科技正式发布并开源了其世界模型LingBot-World。该模型是一个专为交互式世界模拟设计的开源框架。其核心基础组件LingBot-World-Base能够提供高保真度、可控且逻辑一致的模拟环境。


LingBot-World由一个可扩展的数据引擎驱动,通过从大规模游戏环境中学习物理规律与因果关系,可以实现与生成世界进行实时交互。

该模型在视频质量、动态范围、长时一致性、交互能力等关键指标上均接近于谷歌Genie 3模型。


▲ LingBot-World能力表

体验地址:

technology.robbyant.com/lingbot-worldModel

开源地址:

Hugging Face:

huggingface.co/collections/robbyant/lingbot-world

魔搭社区:

www.modelscope.cn/collections/Robbyant/LingBot-world

Github:

github.com/Robbyant/lingbot-worldTech

技术报告:

github.com/robbyant/lingbot-world/blob/main/LingBot_World_paper.pdf

一、近十分钟稳定生成,镜头移动60秒还能保持一致

针对视频生成中最常见的“长时漂移”问题——即生成时间一长就可能出现物体变形、细节塌陷、主体消失或场景结构崩溃等现象,LingBot-World通过多阶段训练以及并行化加速,实现了近10分钟的连续稳定无损生成,为长序列、多步骤的复杂任务训练提供支撑。

▲ 一致性压力测试,镜头最长移动60秒后返回,目标物体仍存在且结构一致

▲ 高动态环境下,镜头长时间移开后返回,车辆形态外观仍保持一致


▲ 镜头长时间移开后返回,房屋仍存在且结构一致

交互性能上,LingBot-World可实现约16 FPS的生成吞吐,并将端到端交互延迟控制在1秒以内。用户可通过键盘或鼠标实时控制角色与相机视角,画面随指令即时反馈。

用户可以通过文本指令触发环境变化与世界事件,例如调整天气、切换画面风格或生成特定事件等,且所有变化均可在保持场景几何关系相对稳定的前提下完成。

二、支持长程任务训练,与场景多样化生成

为解决世界模型训练中高质量交互数据匮乏的问题,LingBot-World采用了混合采集策略:一方面通过清洗大规模的网络视频以覆盖多样化的场景,另一方面结合游戏采集与虚幻引擎(UE)合成管线,从渲染层直接提取无UI干扰的纯净画面,并同步记录操作指令与相机位姿,为模型学习“动作如何改变环境”提供对齐的训练信号。

得益于此,LingBot-World具备了良好的Zero-shot泛化能力。仅需输入一张真实的城市街景照片或游戏截图,模型即可生成对应的可交互视频流,无需针对单一场景进行额外训练,降低了在不同场景中的部署与使用成本。

▲ 机器人穿梭在城市之间

具身智能的规模化落地还面临一个核心挑战,那就是复杂长程任务的真实机训练数据极度稀缺。

LingBot-World凭借长时序一致性、实时交互响应,以及对“动作-环境变化”因果关系的理解,能够在数字世界中“想象”物理世界,为智能体的场景理解和长程任务执行提供了一个低成本、高保真的试错空间。

同时,LingBot-World还支持场景多样化生成,可以改变光照、摆放位置变化等,此功能也有助于提升具身智能算法在真实场景中的泛化能力。

结语:蚂蚁补充物理感知拼图

蚂蚁连续发布三款“灵波”系列具身领域大模型,其通用人工智能(AGI)战略由此完成从数字世界向物理感知层面的关键延伸,也令其“基础模型 – 通用应用 – 实体交互” 的全栈技术路径进一步清晰。

从行业视角看,世界模型正成为连接生成式AI与具身智能的关键桥梁。LingBot-World在长序列生成与零样本泛化方面的能力,若能在实际应用中验证,或可推动相关领域从有限场景训练向开放场景适应的演进。

来源:https://www.163.com/dy/article/KKFBEGIU051180F7.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
Claude4输出格式设置与结构化配置方法

Claude4输出格式设置与结构化配置方法

想要精准控制Claude的输出格式,避免其自由发挥?直接应用成熟的结构化方法,通常比不断调试提示词更高效。本文将详细介绍五种经过实践检验的策略,帮助你牢牢锁定Claude的输出格式,确保结果符合预期。 一、预填充模板骨架法 此方法的核心在于预先构建一个不可更改的输出框架,引导Claude进行填空。关

时间:2026-05-18 18:34
Perplexity订阅扣费成功但显示过期如何同步App Store状态

Perplexity订阅扣费成功但显示过期如何同步App Store状态

遇到Perplexity提示“订阅已过期”,但Apple账户却显示扣款成功,这种情况确实令人困扰。请放心,这通常并非严重问题,核心原因往往是应用客户端未能及时与App Store的订阅状态同步。以下是一套系统性的排查与解决方案,能帮助你逐步理清状况,快速恢复Pro会员权益。 一、强制刷新 App S

时间:2026-05-18 18:34
千问表格Agent沙箱编程技术原理深度解析

千问表格Agent沙箱编程技术原理深度解析

你是否曾好奇,像千问表格Agent这样的智能工具,为什么能直接生成一个包含复杂公式、动态条件格式和完整数据逻辑的Excel工作簿,而不仅仅是输出一个静态的文本表格?其背后的核心奥秘,在于一套精密运行的沙箱编程技术。简而言之,它并非简单地“描述”一个表格,而是真正地“编写”并“执行”一段程序来动态创建

时间:2026-05-18 18:33
macOS 如何彻底解决 WorkBuddy 重复权限弹窗问题

macOS 如何彻底解决 WorkBuddy 重复权限弹窗问题

在 macOS 上启动 WorkBuddy 时,反复弹出“请求访问完整磁盘”或“请求控制此电脑”的权限提示,确实令人困扰。这通常并非系统未授权,而是由于客户端内部的权限校验逻辑与 macOS 系统的实际授权状态之间存在信息差,导致重复触发验证。本文将提供一套完整的解决方案,帮助您一劳永逸地解决 Wo

时间:2026-05-18 18:33
千问表格Agent使用指南 对话式表格处理提升办公效率

千问表格Agent使用指南 对话式表格处理提升办公效率

如果你每天都需要处理大量数据表格,却对复杂的Excel函数和编程代码感到困扰,那么接下来介绍的这款工具,或许能彻底改变你的工作模式。它让你通过自然对话,就能直接创建、编辑和管理表格,真正实现“对话生成表格”的智能办公体验。 一、启动千问表格Agent并进入表格模式 高效的操作始于正确的起点。要使用这

时间:2026-05-18 18:33
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程