数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

阿里新研究：统一VLA与世界模型的核心方法解析

阿里新研究：统一VLA与世界模型的核心方法解析

热心网友时间：2025-10-30

转载

WorldVLA是由阿里巴巴达摩院、湖畔实验室和浙江大学共同研发的统一框架，创新性地将视觉语言动作模型（VLA）与世界模型的优势相融合。

如果说视觉让AI能够观察世界，动作让AI得以改变世界——

那么WorldVLA正在让AI真正理解世界。

顾名思义，WorldVLA是一个将视觉语言动作模型与世界模型进行深度融合的智能架构，由阿里巴巴达摩院携手湖畔实验室、浙江大学联合推出。

在该平台框架下，

世界模型能够通过综合分析动作与图像的关联性来预测未来画面，旨在掌握环境中的潜在物理规律，从而提升动作生成的精准度；动作模型则可基于视觉观测生成连贯动作序列，这不仅强化了机器对环境的感知能力，更能反向促进世界模型的视觉内容生成能力。

实验结果充分表明，WorldVLA在各个任务维度的表现显著优于独立的动作模型与世界模型，充分体现了两者协同带来的增强效应。

下面我们通过具体案例来深入了解。

整合VLA与世界模型的协同优势

当前，虽然VLA和世界模型在各自领域不断发展，但其功能上的局限性已成为制约技术突破的关键瓶颈：

VLA模型：基于预训练的多模态大语言模型构建，虽具备跨场景任务泛化能力，但仅将动作作为输出端，未能深度整合为输入进行分析，缺乏对动作意图的全面理解。世界模型：能够基于当前观测和动作序列预测未来视觉状态，理解视觉信息与行为动态，但无法直接生成具体动作，在需明确动作规划的智能化场景中应用受限。

为解决上述技术难题，研究团队创新性地提出了WorldVLA框架——一种用于统一动作与视觉理解的具备自回归能力的动作世界模型。

团队基于Chameleon多模态大模型进行初始化，让WorldVLA使用三套独立的分词器对视觉信息、文本指令和动作序列进行统一编码处理。

图像分词器采用经过优化的VQ-GAN模型，并针对关键视觉区域引入了感知损失函数进行专项优化。

值得关注的是，该图像压缩模块的压缩比为16，码本规模为8192。对于256×256分辨率的输入图像，会生成256个视觉token；而对于512×512的高清图像，则会生成1024个视觉语义单元。

动作分词器将连续的机器人动作的每个维度离散化为256个区间，区间宽度根据训练数据的数值范围动态确定。每个动作由7个语义单元表示，包括3个相对位置坐标、3个相对角度参数，以及1个绝对夹爪状态标识。

文本分词器采用训练好的BPE分词器，词表规模为65536，其中特别包含了8192个图像语义单元和256个动作语义单元。

所有文本、动作和视觉信息都被统一离散化为语义序列，并以自回归方式进行联合训练。

自回归模型中的标准注意力机制通常采用因果注意力掩码，即当前token只能访问序列中前面的语义信息，而无法获取后续单元的内容，具体机制如下图所示。

然而，这种传统配置在生成连续动作序列时存在明显不足。在默认注意力掩码下，早期动作生成产生的误差会传递到后续动作预测中，从而导致系统性能下降。

为解决这一技术痛点，团队创新性地提出了针对动作生成的替代注意力掩码方案，具体机制如图(b)所示。该设计确保当前动作的生成仅依赖于文本指令和视觉观察输入，有效屏蔽之前动作序列的干扰影响。

这种注意力机制设计使自回归框架能够并行生成多个动作，而世界模型组件则继续遵循传统的因果注意力掩码，如图(c)所示。

之后，研究团队通过融合动作模型数据与世界模型数据对WorldVLA进行联合训练。

其中，特别引入世界模型数据以增强动作生成能力，主要基于三个关键维度考量：

1、环境物理理解：世界模型能够基于当前状态和执行的动作来预测未来观测变化，从而学习环境中的潜在物理规律，这种认知深化对精细化操作任务尤为重要。

2、动作评估与风险规避：世界模型可以模拟并预测备选动作的潜在结果，有助于筛选可能导致不良状态的动作序列。

3、精准动作解析：世界模型需要对动作输入进行精确语义解析，这反过来支撑动作模型生成更有效且符合上下文语义的动作。

此外，动作模型也能增强视觉理解能力，从而进一步支持世界模型的视觉内容生成。

动作模型与世界模型相互赋能

基准测试表现

如下表数据所示，即便在没有进行预训练的情况下，WorldVLA模型也展现出优于离散化OpenVLA模型的性能水平，这充分证明了其架构设计的先进性与有效性。

同时值得注意的是，模型性能与图像分辨率呈现明显正相关性。具体而言，512×512像素分辨率相比256×256像素分辨率带来了显著性能提升。

这一现象主要归因于Chameleon主干模型的预训练策略，其图像分词器与大语言模型组件在512×512分辨率下进行了针对性优化。

另一方面，更高的输入分辨率自然提供了更丰富的视觉细节信息，这对需要高操作精度的机器人抓取任务尤为关键。

世界模型助力动作模型

研究表明，引入世界模型数据能够显著提升动作模型的综合性能表现。

世界模型的核心功能是基于当前状态与执行动作预测环境状态变化，这种生成机制促使模型系统学习底层的物理规律，而正是掌握这种规律成为实现精确抓取等高级操作任务的核心前提。

从更深层次来看，世界模型赋予了系统前瞻推演能力：通过预判备选动作可能产生的后果，为决策过程提供关键信息输入，从而优化动作选择策略，提高任务成功率。

下图的实际案例直观展示了这一技术优势。基线动作模型会直接移动到目标点位但未能成功抓取物品，而WorldVLA则持续尝试抓取，直到确认操作成功后才移向目标放置位置。

动作模型赋能世界模型

在生成质量方面，WorldVLA显著优于纯世界模型，尤其是在生成长视频序列时的表现更为突出。

此外，纯世界模型在多个场景中呈现明显缺陷：无法成功拉开抽屉、移动盘子后导致碗消失、未能将碗平稳放置在灶台上。

而融合动作的世界模型在这些关键场景中都生成了连贯且符合物理规律的后续状态。

核心作者介绍

论文第一作者范崎，于2024年8月加入阿里巴巴达摩院。本科毕业于浙江大学，硕士和博士均毕业于香港科技大学，2024年在新加坡南洋理工大学访问过半年，曾在微软亚洲研究院、上海AI Lab、海康威视和阿里巴巴通义实验室实习。

业界专家观点

小米汽车高级研究总监、主任科学家陈龙也对此发表了专业见解：

VLA与WM并非需要二选一的技术路线，二者可以有机结合相互促进。

一个负责“抽象思考”，一个负责“物理感知”，VLA与WM的深度结合，才是通向具身智能的正确发展方向。

论文链接：https://t.co/ZgHyhqQnyf

Github链接：https://t.co/SxDZGuhbL7

来源:https://www.51cto.com/article/828412.html

上一篇：杭叉集团推X1物流机器人，加速智慧物流全场景布局

下一篇：变分掩码扩散模型：优化并发标记预测的依赖关系处理

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

同类文章

昆仑万维开源SkyReels-V3多模态视频生成模型详解

昆仑万维开源SkyReels-V3多模态视频生成模型详解

SkyReels-V3是什么视频创作的门槛，正在被一项新技术重新定义。最近，昆仑万维开源的SkyReels-V3，可以说在业内投下了一枚“重磅冲击波”。它不再是一个功能单一的玩具，而是一个用单一架构就能实现专业级视频创作的“多面手”。简单来说，它能让你手里的静态照片“活”起来，变成动态影像；还能智

时间：2026-05-23 22:14

HKUDS开源AI Agent经济生存基准测试框架ClawWork详解

HKUDS开源AI Agent经济生存基准测试框架ClawWork详解

ClawWork是什么如果让AI去真实世界里“打工”，它能不能养活自己？香港大学数据科学实验室（HKUDS）开源的ClawWork项目，就是为了回答这个问题而生的。它本质上是一个AI Agent的“经济生存”基准测试框架，专门评估大模型在模拟真实商业环境中的“赚钱能力”。这套系统的规则很现实：给

时间：2026-05-23 22:14

小红书开源图像编辑模型FireRed使用指南

小红书开源图像编辑模型FireRed使用指南

FireRed-Image-Edit是什么在AI图像生成与编辑领域，开源模型正迅速崛起，其能力已能比肩甚至超越部分闭源方案。近期，由小红书Super Intelligence团队研发并开源的FireRed-Image-Edit模型，便是这一趋势下的杰出代表。这款基于先进扩散架构的通用图像编辑AI，

时间：2026-05-23 22:13

蚂蚁开源全模态大模型Ming‑Flash‑Omni 2.0详解

蚂蚁开源全模态大模型Ming‑Flash‑Omni 2.0详解

在人工智能模型普遍追求规模与通用性的当下，开发者们迫切需要一款能够真正“看懂”图像、“听懂”声音、“读懂”文字，并能自由进行跨模态内容创作的“全能型”AI工具。近期，蚂蚁集团重磅开源的全模态大语言模型Ming-flash-omni-2 0，正将这一愿景变为现实。它不仅彻底打通了图像、视频、音频与文本

时间：2026-05-23 22:12

昆仑万维Skyanime AI短剧创作工具使用指南

昆仑万维Skyanime AI短剧创作工具使用指南

SkyAnime是什么近期，AI短剧领域的热门话题离不开一个名字——SkyAnime。作为昆仑万维推出的核心AI创作工具，它基于公司自研的SkyReels视频大模型构建。其核心目标非常清晰：赋能广大创作者，以显著降低的制作成本和大幅提升的生产效率，打造出具备精品质感的AI动画短剧。深入来看，Sk

时间：2026-05-23 22:12

热门专题

刀塔传奇破解版无限钻石下载大全

刀塔传奇破解版无限钻石下载大全

洛克王国正式正版手游下载安装大全

洛克王国正式正版手游下载安装大全

思美人手游下载专区

思美人手游下载专区

好玩的阿拉德之怒游戏下载合集

好玩的阿拉德之怒游戏下载合集

不思议迷宫手游下载合集

不思议迷宫手游下载合集

百宝袋汉化组游戏最新合集

百宝袋汉化组游戏最新合集

jsk游戏合集30款游戏大全

jsk游戏合集30款游戏大全

宾果消消消原版下载大全

宾果消消消原版下载大全

日榜
周榜
月榜

洛克王国绿色命运之钥获取攻略与详细步骤

洛克王国VIP扭蛋机具体位置与获取方法

光遇2026年520发布会爆料内容全解析

洛克王国S2赛季异色精灵盒子查看与使用指南

洛克王国城堡守护者具体位置与寻找攻略

星辰变归来神兽获取攻略新手快速入手指南

洛克王国宠物医院地址查询与位置导航指南

星辰变归来时装系统详解新手入门穿搭攻略

阴阳师2026年520兑换码领取方法与最新福利一览

星辰变归来境界系统详解与修炼攻略

漫蛙漫画防走失网页链接

日本宝可梦卡牌遭恶意破坏抵制黄牛行为引关注

三国志将星闪耀零氪能玩吗微氪玩家体验与氪金程度解析

少女前线2追放维尔德强度评测技能解析与培养攻略

客官里面请手游氪金指南与零氪金新手攻略

东离剑游纪手游抽卡机制与角色获取攻略详解

客官里面请手游深山探险全流程攻略与资源获取详解

镭明闪击手游哨所掩体高效布局与实战部署攻略

宝可梦冠军手游Mega进化种族值与能力数值全解析

地下城之光手游装备搭配与职业流派加点全攻略

漫蛙漫画防走失网页链接

《问剑长生》新大区预创角开启，是什么福利让玩家直呼夯爆了？

紧急！Axios 被投毒，3亿项目受到影响！教你怎么自查！

兆易创新2025年年营收92亿元，净利16亿元

TensorFlow - AI开发平台,AI开发框架

解决sql server2008注册表写入失败，vs2013核心功能安装失败

《九牧之野》S3乱世诡道主题服开启：4月18日上线，预备盟奖励与开服福利一文看懂

donk：对待季军赛的心态和决赛不一样，总之已经拿不到冠军了

iPhone 15耳机连接后音量小原因排查与解决

蛮荒领主手游测试资格获取方式蛮荒领主内测资格申请渠道与条件详解

相关攻略

相关攻略

《炎龙骑士团2》详细全攻略

2015-03-10 11:25

《炎龙骑士团2》详细全攻略

《东吴霸王传2013》详细全关攻略

2015-03-10 11:05

《东吴霸王传2013》详细全关攻略

《臭作》之100%全完整攻略

2021-08-04 13:30

《臭作》之100%全完整攻略

《兰斯8》剧情攻略详细篇

2015-03-10 11:22

《兰斯8》剧情攻略详细篇

《英雄坛说》详细全攻略

2015-03-10 12:39

《英雄坛说》详细全攻略

《造梦西游2：十殿阎罗篇》BOSS档案及掉落装备全介绍及攻略

2022-05-16 18:57

《造梦西游2：十殿阎罗篇》BOSS档案及掉落装备全介绍及攻略

偷窃少女的教育方法全攻略

2025-05-23 13:43

偷窃少女的教育方法全攻略

无法抵挡小恶魔的诱惑攻略

2025-05-23 14:01

无法抵挡小恶魔的诱惑攻略

热门教程

游戏攻略
安卓教程
苹果教程
电脑教程

劲铠生日庆典 DMM角色日玩法全解析

劲铠生日庆典 DMM角色日玩法全解析发布于 2026-05-23

我的世界传奇天境更新7月14日上线市场

我的世界传奇天境更新7月14日上线市场发布于 2026-05-23

燕云十六声常平仓玩法攻略详解

燕云十六声常平仓玩法攻略详解发布于 2026-05-23

光遇与中国绊爱联动同人作品征集活动开启

光遇与中国绊爱联动同人作品征集活动开启发布于 2026-05-23

代号妖鬼龙千疮百孔流最强搭配方案与实战教学

代号妖鬼龙千疮百孔流最强搭配方案与实战教学发布于 2026-05-23

真探第三季第五案谜字帖谜底全解析

真探第三季第五案谜字帖谜底全解析发布于 2026-05-23

觅仙途天道福泽解锁方法详解与获取途径

觅仙途天道福泽解锁方法详解与获取途径发布于 2026-05-23

绝区零集成考核1通关攻略与阵容搭配详解

绝区零集成考核1通关攻略与阵容搭配详解发布于 2026-05-23

《极限竞速：地平线6》碾压稻田引热议玩家集体心疼农民劳动成果

《极限竞速：地平线6》碾压稻田引热议玩家集体心疼农民劳动成果发布于 2026-05-23

神鬼寓言今秋多平台同步发售 Playground Games正式确认

神鬼寓言今秋多平台同步发售 Playground Games正式确认发布于 2026-05-23

代号梦境行者游戏评测与新手玩法全攻略

代号梦境行者游戏评测与新手玩法全攻略发布于 2026-05-23

最终幻想7重生XBOX版预载开启游戏容量169GB

最终幻想7重生XBOX版预载开启游戏容量169GB 发布于 2026-05-23

鬼泣5 PC版持续更新 SteamDB页面动态引关注

鬼泣5 PC版持续更新 SteamDB页面动态引关注发布于 2026-05-23

Take-Two CEO 称主机涨价无碍 GTA6 将推动玩家数量增长

Take-Two CEO 称主机涨价无碍 GTA6 将推动玩家数量增长发布于 2026-05-23

命运2最后一次更新后停止开发 Bungie将大规模裁员

命运2最后一次更新后停止开发 Bungie将大规模裁员发布于 2026-05-23

泰国民俗恐怖游戏《暮光计划》公布：昼夜机制演绎寂静岭式惊悚

泰国民俗恐怖游戏《暮光计划》公布：昼夜机制演绎寂静岭式惊悚发布于 2026-05-23

Windows批量修改文件后缀名教程使用CMD命令一键快速完成

Windows批量修改文件后缀名教程使用CMD命令一键快速完成发布于 2026-05-20

Win11 查看 CPU 硬件级安全隔离支持方法提升系统防御力

Win11 查看 CPU 硬件级安全隔离支持方法提升系统防御力发布于 2026-05-20

如何查询Mac型号年份与配置信息

如何查询Mac型号年份与配置信息发布于 2026-05-20

Linux系统Nginx服务器HTTPS证书安装配置教程

Linux系统Nginx服务器HTTPS证书安装配置教程发布于 2026-05-20

Mac放大镜功能开启指南轻松看清屏幕细节

Mac放大镜功能开启指南轻松看清屏幕细节发布于 2026-05-20

Mac终端清理DNS缓存详细步骤与操作指南

Mac终端清理DNS缓存详细步骤与操作指南发布于 2026-05-20

Win11任务栏合并标签如何关闭恢复经典文字导航栏

Win11任务栏合并标签如何关闭恢复经典文字导航栏发布于 2026-05-20

Mac桌面图标自动整理技巧：堆栈功能高效管理文件

Mac桌面图标自动整理技巧：堆栈功能高效管理文件发布于 2026-05-20

国产内存新架构突破30TB带宽实现自主供应链

国产内存新架构突破30TB带宽实现自主供应链发布于 2026-05-11

Edge浏览器网页捕获功能使用教程截取全屏与区域截图详解

Edge浏览器网页捕获功能使用教程截取全屏与区域截图详解发布于 2026-05-11

千度手机版官网免费入口手机端专用访问链接

千度手机版官网免费入口手机端专用访问链接发布于 2026-05-11

ES文件浏览器复制文件内容到剪贴板详细步骤教程

ES文件浏览器复制文件内容到剪贴板详细步骤教程发布于 2026-05-11

如何设置鼠标连点器的固定点击间隔秒数

如何设置鼠标连点器的固定点击间隔秒数发布于 2026-05-11

苹果iPhone 15截屏保存到相册的详细步骤教程

苹果iPhone 15截屏保存到相册的详细步骤教程发布于 2026-05-11

立升净水器滤芯更换方法与使用指南

立升净水器滤芯更换方法与使用指南发布于 2026-05-11

ES文件浏览器如何设置默认打开应用详细图文教程

ES文件浏览器如何设置默认打开应用详细图文教程发布于 2026-05-11

热门话题

魔术游戏下载-魔术游戏-2022热门的魔术小游戏大全

魔术游戏下载-魔术游戏-2022热门的魔术小游戏大全

刀塔传奇破解版在哪下-刀塔传奇破解版无限钻石下载大全-刀塔传奇破解版内购破解版合集

刀塔传奇破解版在哪下-刀塔传奇破解版无限钻石下载大全-刀塔传奇破解版内购破解版合集

饥荒下载免费中文版-饥荒下载破解版-饥荒正版全部版本下载合集

饥荒下载免费中文版-饥荒下载破解版-饥荒正版全部版本下载合集

拉布布游戏下载-拉布布游戏合集-拉布布系列游戏大全合集

拉布布游戏下载-拉布布游戏合集-拉布布系列游戏大全合集

洛克王国手游正版下载-洛克王国正版手游下载安装大全-类似洛克王国的手机游戏推荐

洛克王国手游正版下载-洛克王国正版手游下载安装大全-类似洛克王国的手机游戏推荐

神魔幻想单机游戏下载-神魔幻想单机游戏推荐-神魔幻想系列游戏下载合集

神魔幻想单机游戏下载-神魔幻想单机游戏推荐-神魔幻想系列游戏下载合集

最受女生欢迎的游戏_女生玩的手游_思美人手游下载专区

最受女生欢迎的游戏_女生玩的手游_思美人手游下载专区

疯狂越野系列游戏下载_疯狂越野全版本合集中文版下载

疯狂越野系列游戏下载_疯狂越野全版本合集中文版下载

神庙逃亡2破解无限金币无限钻石下载-神庙逃亡2国际版破解大全-神庙逃亡2版本合集

神庙逃亡2破解无限金币无限钻石下载-神庙逃亡2国际版破解大全-神庙逃亡2版本合集