当前位置: 首页
AI资讯
阿里新研究:统一VLA与世界模型的核心方法解析

阿里新研究:统一VLA与世界模型的核心方法解析

热心网友 时间:2025-10-30
转载

WorldVLA是由阿里巴巴达摩院、湖畔实验室和浙江大学共同研发的统一框架,创新性地将视觉语言动作模型(VLA)与世界模型的优势相融合。

如果说视觉让AI能够观察世界,动作让AI得以改变世界——

那么WorldVLA正在让AI真正理解世界。

顾名思义,WorldVLA是一个将视觉语言动作模型与世界模型进行深度融合的智能架构,由阿里巴巴达摩院携手湖畔实验室、浙江大学联合推出。

在该平台框架下,

世界模型能够通过综合分析动作与图像的关联性来预测未来画面,旨在掌握环境中的潜在物理规律,从而提升动作生成的精准度;动作模型则可基于视觉观测生成连贯动作序列,这不仅强化了机器对环境的感知能力,更能反向促进世界模型的视觉内容生成能力。

实验结果充分表明,WorldVLA在各个任务维度的表现显著优于独立的动作模型与世界模型,充分体现了两者协同带来的增强效应。

下面我们通过具体案例来深入了解。

整合VLA与世界模型的协同优势

当前,虽然VLA和世界模型在各自领域不断发展,但其功能上的局限性已成为制约技术突破的关键瓶颈:

VLA模型:基于预训练的多模态大语言模型构建,虽具备跨场景任务泛化能力,但仅将动作作为输出端,未能深度整合为输入进行分析,缺乏对动作意图的全面理解。世界模型:能够基于当前观测和动作序列预测未来视觉状态,理解视觉信息与行为动态,但无法直接生成具体动作,在需明确动作规划的智能化场景中应用受限。

为解决上述技术难题,研究团队创新性地提出了WorldVLA框架——一种用于统一动作与视觉理解的具备自回归能力的动作世界模型。

团队基于Chameleon多模态大模型进行初始化,让WorldVLA使用三套独立的分词器对视觉信息、文本指令和动作序列进行统一编码处理。

图像分词器采用经过优化的VQ-GAN模型,并针对关键视觉区域引入了感知损失函数进行专项优化。

值得关注的是,该图像压缩模块的压缩比为16,码本规模为8192。对于256×256分辨率的输入图像,会生成256个视觉token;而对于512×512的高清图像,则会生成1024个视觉语义单元。

动作分词器将连续的机器人动作的每个维度离散化为256个区间,区间宽度根据训练数据的数值范围动态确定。每个动作由7个语义单元表示,包括3个相对位置坐标、3个相对角度参数,以及1个绝对夹爪状态标识。

文本分词器采用训练好的BPE分词器,词表规模为65536,其中特别包含了8192个图像语义单元和256个动作语义单元。

所有文本、动作和视觉信息都被统一离散化为语义序列,并以自回归方式进行联合训练。

自回归模型中的标准注意力机制通常采用因果注意力掩码,即当前token只能访问序列中前面的语义信息,而无法获取后续单元的内容,具体机制如下图所示。

然而,这种传统配置在生成连续动作序列时存在明显不足。在默认注意力掩码下,早期动作生成产生的误差会传递到后续动作预测中,从而导致系统性能下降。

为解决这一技术痛点,团队创新性地提出了针对动作生成的替代注意力掩码方案,具体机制如图(b)所示。该设计确保当前动作的生成仅依赖于文本指令和视觉观察输入,有效屏蔽之前动作序列的干扰影响。

这种注意力机制设计使自回归框架能够并行生成多个动作,而世界模型组件则继续遵循传统的因果注意力掩码,如图(c)所示。

之后,研究团队通过融合动作模型数据与世界模型数据对WorldVLA进行联合训练。

其中,特别引入世界模型数据以增强动作生成能力,主要基于三个关键维度考量:

1、环境物理理解:世界模型能够基于当前状态和执行的动作来预测未来观测变化,从而学习环境中的潜在物理规律,这种认知深化对精细化操作任务尤为重要。

2、动作评估与风险规避:世界模型可以模拟并预测备选动作的潜在结果,有助于筛选可能导致不良状态的动作序列。

3、精准动作解析:世界模型需要对动作输入进行精确语义解析,这反过来支撑动作模型生成更有效且符合上下文语义的动作。

此外,动作模型也能增强视觉理解能力,从而进一步支持世界模型的视觉内容生成。

动作模型与世界模型相互赋能

基准测试表现

如下表数据所示,即便在没有进行预训练的情况下,WorldVLA模型也展现出优于离散化OpenVLA模型的性能水平,这充分证明了其架构设计的先进性与有效性。

同时值得注意的是,模型性能与图像分辨率呈现明显正相关性。具体而言,512×512像素分辨率相比256×256像素分辨率带来了显著性能提升。

这一现象主要归因于Chameleon主干模型的预训练策略,其图像分词器与大语言模型组件在512×512分辨率下进行了针对性优化。

另一方面,更高的输入分辨率自然提供了更丰富的视觉细节信息,这对需要高操作精度的机器人抓取任务尤为关键。

世界模型助力动作模型

研究表明,引入世界模型数据能够显著提升动作模型的综合性能表现。

世界模型的核心功能是基于当前状态与执行动作预测环境状态变化,这种生成机制促使模型系统学习底层的物理规律,而正是掌握这种规律成为实现精确抓取等高级操作任务的核心前提。

从更深层次来看,世界模型赋予了系统前瞻推演能力:通过预判备选动作可能产生的后果,为决策过程提供关键信息输入,从而优化动作选择策略,提高任务成功率。

下图的实际案例直观展示了这一技术优势。基线动作模型会直接移动到目标点位但未能成功抓取物品,而WorldVLA则持续尝试抓取,直到确认操作成功后才移向目标放置位置。

动作模型赋能世界模型

在生成质量方面,WorldVLA显著优于纯世界模型,尤其是在生成长视频序列时的表现更为突出。

此外,纯世界模型在多个场景中呈现明显缺陷:无法成功拉开抽屉、移动盘子后导致碗消失、未能将碗平稳放置在灶台上。

而融合动作的世界模型在这些关键场景中都生成了连贯且符合物理规律的后续状态。

核心作者介绍

论文第一作者范崎,于2024年8月加入阿里巴巴达摩院。本科毕业于浙江大学,硕士和博士均毕业于香港科技大学,2024年在新加坡南洋理工大学访问过半年,曾在微软亚洲研究院、上海AI Lab、海康威视和阿里巴巴通义实验室实习。

业界专家观点

小米汽车高级研究总监、主任科学家陈龙也对此发表了专业见解:

VLA与WM并非需要二选一的技术路线,二者可以有机结合相互促进。

一个负责“抽象思考”,一个负责“物理感知”,VLA与WM的深度结合,才是通向具身智能的正确发展方向。

论文链接:https://t.co/ZgHyhqQnyf

Github链接:https://t.co/SxDZGuhbL7

来源:https://www.51cto.com/article/828412.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
昆仑万维开源SkyReels-V3多模态视频生成模型详解

昆仑万维开源SkyReels-V3多模态视频生成模型详解

SkyReels-V3是什么 视频创作的门槛,正在被一项新技术重新定义。最近,昆仑万维开源的SkyReels-V3,可以说在业内投下了一枚“重磅冲击波”。它不再是一个功能单一的玩具,而是一个用单一架构就能实现专业级视频创作的“多面手”。简单来说,它能让你手里的静态照片“活”起来,变成动态影像;还能智

时间:2026-05-23 22:14
HKUDS开源AI Agent经济生存基准测试框架ClawWork详解

HKUDS开源AI Agent经济生存基准测试框架ClawWork详解

ClawWork是什么 如果让AI去真实世界里“打工”,它能不能养活自己?香港大学数据科学实验室(HKUDS)开源的ClawWork项目,就是为了回答这个问题而生的。它本质上是一个AI Agent的“经济生存”基准测试框架,专门评估大模型在模拟真实商业环境中的“赚钱能力”。 这套系统的规则很现实:给

时间:2026-05-23 22:14
小红书开源图像编辑模型FireRed使用指南

小红书开源图像编辑模型FireRed使用指南

FireRed-Image-Edit是什么 在AI图像生成与编辑领域,开源模型正迅速崛起,其能力已能比肩甚至超越部分闭源方案。近期,由小红书Super Intelligence团队研发并开源的FireRed-Image-Edit模型,便是这一趋势下的杰出代表。这款基于先进扩散架构的通用图像编辑AI,

时间:2026-05-23 22:13
蚂蚁开源全模态大模型Ming‑Flash‑Omni 2.0详解

蚂蚁开源全模态大模型Ming‑Flash‑Omni 2.0详解

在人工智能模型普遍追求规模与通用性的当下,开发者们迫切需要一款能够真正“看懂”图像、“听懂”声音、“读懂”文字,并能自由进行跨模态内容创作的“全能型”AI工具。近期,蚂蚁集团重磅开源的全模态大语言模型Ming-flash-omni-2 0,正将这一愿景变为现实。它不仅彻底打通了图像、视频、音频与文本

时间:2026-05-23 22:12
昆仑万维Skyanime AI短剧创作工具使用指南

昆仑万维Skyanime AI短剧创作工具使用指南

SkyAnime是什么 近期,AI短剧领域的热门话题离不开一个名字——SkyAnime。作为昆仑万维推出的核心AI创作工具,它基于公司自研的SkyReels视频大模型构建。其核心目标非常清晰:赋能广大创作者,以显著降低的制作成本和大幅提升的生产效率,打造出具备精品质感的AI动画短剧。 深入来看,Sk

时间:2026-05-23 22:12
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程