阿里新研究:统一VLA与世界模型的核心方法解析

WorldVLA是由阿里巴巴达摩院、湖畔实验室和浙江大学共同研发的统一框架,创新性地将视觉语言动作模型(VLA)与世界模型的优势相融合。
如果说视觉让AI能够观察世界,动作让AI得以改变世界——
那么WorldVLA正在让AI真正理解世界。
顾名思义,WorldVLA是一个将视觉语言动作模型与世界模型进行深度融合的智能架构,由阿里巴巴达摩院携手湖畔实验室、浙江大学联合推出。

在该平台框架下,
世界模型能够通过综合分析动作与图像的关联性来预测未来画面,旨在掌握环境中的潜在物理规律,从而提升动作生成的精准度;动作模型则可基于视觉观测生成连贯动作序列,这不仅强化了机器对环境的感知能力,更能反向促进世界模型的视觉内容生成能力。
实验结果充分表明,WorldVLA在各个任务维度的表现显著优于独立的动作模型与世界模型,充分体现了两者协同带来的增强效应。

下面我们通过具体案例来深入了解。
整合VLA与世界模型的协同优势
当前,虽然VLA和世界模型在各自领域不断发展,但其功能上的局限性已成为制约技术突破的关键瓶颈:
VLA模型:基于预训练的多模态大语言模型构建,虽具备跨场景任务泛化能力,但仅将动作作为输出端,未能深度整合为输入进行分析,缺乏对动作意图的全面理解。世界模型:能够基于当前观测和动作序列预测未来视觉状态,理解视觉信息与行为动态,但无法直接生成具体动作,在需明确动作规划的智能化场景中应用受限。
为解决上述技术难题,研究团队创新性地提出了WorldVLA框架——一种用于统一动作与视觉理解的具备自回归能力的动作世界模型。

团队基于Chameleon多模态大模型进行初始化,让WorldVLA使用三套独立的分词器对视觉信息、文本指令和动作序列进行统一编码处理。
图像分词器采用经过优化的VQ-GAN模型,并针对关键视觉区域引入了感知损失函数进行专项优化。
值得关注的是,该图像压缩模块的压缩比为16,码本规模为8192。对于256×256分辨率的输入图像,会生成256个视觉token;而对于512×512的高清图像,则会生成1024个视觉语义单元。
动作分词器将连续的机器人动作的每个维度离散化为256个区间,区间宽度根据训练数据的数值范围动态确定。每个动作由7个语义单元表示,包括3个相对位置坐标、3个相对角度参数,以及1个绝对夹爪状态标识。

文本分词器采用训练好的BPE分词器,词表规模为65536,其中特别包含了8192个图像语义单元和256个动作语义单元。
所有文本、动作和视觉信息都被统一离散化为语义序列,并以自回归方式进行联合训练。
自回归模型中的标准注意力机制通常采用因果注意力掩码,即当前token只能访问序列中前面的语义信息,而无法获取后续单元的内容,具体机制如下图所示。

然而,这种传统配置在生成连续动作序列时存在明显不足。在默认注意力掩码下,早期动作生成产生的误差会传递到后续动作预测中,从而导致系统性能下降。
为解决这一技术痛点,团队创新性地提出了针对动作生成的替代注意力掩码方案,具体机制如图(b)所示。该设计确保当前动作的生成仅依赖于文本指令和视觉观察输入,有效屏蔽之前动作序列的干扰影响。
这种注意力机制设计使自回归框架能够并行生成多个动作,而世界模型组件则继续遵循传统的因果注意力掩码,如图(c)所示。
之后,研究团队通过融合动作模型数据与世界模型数据对WorldVLA进行联合训练。
其中,特别引入世界模型数据以增强动作生成能力,主要基于三个关键维度考量:
1、环境物理理解:世界模型能够基于当前状态和执行的动作来预测未来观测变化,从而学习环境中的潜在物理规律,这种认知深化对精细化操作任务尤为重要。
2、动作评估与风险规避:世界模型可以模拟并预测备选动作的潜在结果,有助于筛选可能导致不良状态的动作序列。
3、精准动作解析:世界模型需要对动作输入进行精确语义解析,这反过来支撑动作模型生成更有效且符合上下文语义的动作。
此外,动作模型也能增强视觉理解能力,从而进一步支持世界模型的视觉内容生成。
动作模型与世界模型相互赋能
基准测试表现
如下表数据所示,即便在没有进行预训练的情况下,WorldVLA模型也展现出优于离散化OpenVLA模型的性能水平,这充分证明了其架构设计的先进性与有效性。

同时值得注意的是,模型性能与图像分辨率呈现明显正相关性。具体而言,512×512像素分辨率相比256×256像素分辨率带来了显著性能提升。
这一现象主要归因于Chameleon主干模型的预训练策略,其图像分词器与大语言模型组件在512×512分辨率下进行了针对性优化。
另一方面,更高的输入分辨率自然提供了更丰富的视觉细节信息,这对需要高操作精度的机器人抓取任务尤为关键。
世界模型助力动作模型
研究表明,引入世界模型数据能够显著提升动作模型的综合性能表现。
世界模型的核心功能是基于当前状态与执行动作预测环境状态变化,这种生成机制促使模型系统学习底层的物理规律,而正是掌握这种规律成为实现精确抓取等高级操作任务的核心前提。

从更深层次来看,世界模型赋予了系统前瞻推演能力:通过预判备选动作可能产生的后果,为决策过程提供关键信息输入,从而优化动作选择策略,提高任务成功率。
下图的实际案例直观展示了这一技术优势。基线动作模型会直接移动到目标点位但未能成功抓取物品,而WorldVLA则持续尝试抓取,直到确认操作成功后才移向目标放置位置。

动作模型赋能世界模型
在生成质量方面,WorldVLA显著优于纯世界模型,尤其是在生成长视频序列时的表现更为突出。

此外,纯世界模型在多个场景中呈现明显缺陷:无法成功拉开抽屉、移动盘子后导致碗消失、未能将碗平稳放置在灶台上。
而融合动作的世界模型在这些关键场景中都生成了连贯且符合物理规律的后续状态。

核心作者介绍

论文第一作者范崎,于2024年8月加入阿里巴巴达摩院。本科毕业于浙江大学,硕士和博士均毕业于香港科技大学,2024年在新加坡南洋理工大学访问过半年,曾在微软亚洲研究院、上海AI Lab、海康威视和阿里巴巴通义实验室实习。
业界专家观点
小米汽车高级研究总监、主任科学家陈龙也对此发表了专业见解:
VLA与WM并非需要二选一的技术路线,二者可以有机结合相互促进。
一个负责“抽象思考”,一个负责“物理感知”,VLA与WM的深度结合,才是通向具身智能的正确发展方向。
论文链接:https://t.co/ZgHyhqQnyf
Github链接:https://t.co/SxDZGuhbL7
免责声明
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
谷歌AI转型实绩:传统业务焕新,为互联网企业带来增长新路径
谷歌母公司Alphabet近日公布了最新季度财报,总营收达1023 46亿美元,同比增长16%,超出华尔街预期超20亿美元。分业务线来看,各板块表现均优于市场预期,摊薄每股收益达2 87美元,盘后股
马斯克“硬刚”维基百科:人类知识运营的深层矛盾解析
埃隆·马斯克近期对维基百科发起多轮公开批评,并推出由人工智能驱动的在线百科项目GrokiPedia,引发两大知识平台的隔空交锋。面对科技巨头的挑战,维基百科在最新募捐公告中以独特方式作出回应,强调其
黄仁勋、周鸿祎共论AI:是伙伴非工具,推动经济与个体升级
在近期科技界关于人工智能(AI)发展的讨论中,两位科技行业领军人物对AI本质的认知出现了高度契合的观点。英伟达创始人黄仁勋与360集团创始人周鸿祎不约而同地提出,AI不应被简单定义为技术工具,而应被
谷歌CEO:全力押注生成式AI,Gemini下载量突破65亿次
在最新公布的季度财报中,科技巨头Alphabet交出了一份亮眼成绩单,公司第三季度营收成功突破千亿美元大关。在随后召开的财报电话会议上,首席执行官桑达尔·皮查伊着重阐述了公司对生成式人工智能的战略布
环球音乐与Udio和解:版权纠纷落幕,2026年推AI音乐平台
环球音乐集团(UMG)与人工智能音乐创作平台Udio近日宣布达成一项具有开创性的战略合作协议,这一举措在音乐行业引发广泛关注。此前,双方曾因版权问题陷入法律纠纷,此次合作不仅化解了矛盾,更开启了音乐
相关攻略
热门教程
更多- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程








