VLA模型最全解析:从原理到应用实战指南
据统计,VLA模型相关投稿量,从去年的个位数飙升至164篇,足足增长了18倍。这股热潮背后,让机器人“听懂人话、看懂世界、动手干活”,正成为AI领域极具吸引力的前沿阵地。然而,在这片繁荣之下,一个问题也随之浮现:当我们谈论VLA的进步时,我们到底在谈论什么?
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
ICLR 2026爆火领域VLA(Vision-Language-Action,视觉-语言-动作)全面综述来了!
如果你还不了解VLA是什么,以及这个让机器人学者集体兴奋的领域进展如何,看这一篇就够了。

文章作者Moritz Reuss是2025年Apple AI/ML学者奖得主,曾在RSS、ICLR、NeurIPS等顶级会议多次发表研究成果。这篇综述既是一线研究者的实战总结,也是洞察趋势的前沿观察。
文章一出,评论区好评不断,甚至顶级猎头Mark Wallace直接抛出了橄榄枝。

这个VLA,究竟有多火?
据统计,VLA模型相关投稿量,从去年的个位数飙升至164篇,足足增长了18倍。
这股热潮背后,让机器人“听懂人话、看懂世界、动手干活”,正成为AI领域极具吸引力的前沿阵地。
然而,在这片繁荣之下,一个问题也随之浮现:当我们谈论VLA的进步时,我们到底在谈论什么?
明确VLA的概念
在深入探讨技术趋势前,我们必须先明确一个基本概念:什么样的模型,才有资格被称为VLA?
学术界对此尚无统一定义,但研究员Moritz Reuss在他的综述中提出了一个标准:
一个模型必须使用经过大规模、互联网级别的视觉-语言数据预训练过的骨干(pre-trained backbone),才能被称为VLA。
这一定义强调模型能力的来源:VLA必须具备通过图文预训练习得的语言理解、视觉泛化和任务迁移能力。
代表模型如Google的PaLI-X,或开源项目Llava、Florence-2等。
而如果一个模型只是简单地将独立的视觉编码器和文本编码器拼在一起,那它更应该被称为“多模态策略”(Multimodal Policies)。
与之相关,还有一个概念值得一提:大型行为模型(Large Behavior Models, LBMs)。这是丰田研究院提出的术语,指在“大规模、多任务的机器人演示数据”上训练出的策略。
可以这样理解:
VLA强调的是“基因”,即必须继承自一个强大的VLM(视觉语言模型)LBM强调的是“养料”,即必须用海量的机器人操作数据进行训练一个在大量机器人数据上微调的VLA,同时也是一个LBM。
但一个LBM,不一定是一个VLA。搞清楚这个边界,才有助于我们理解不同技术路线的侧重。
透过ICLR 2026看VLA八大趋势
趋势一:VLA的高效架构新范式
如果说今年VLA架构有什么新风向,当属离散扩散模型(Discrete Diffusion)。

传统的自回归模型一个字一个字写,必须生成完上一个动作单元,才能生成下一个。
而离散扩散模型则可以并行化地一次性生成整个动作序列。这带来了几个好处:
高效生成:减少前向传播次数,提高推理效率思维动作融合:可并行生成动作与推理过程(如子目标、关键物体位置),即具身思维链(Embodied Chain-of-Thought, ECoT)关于这个趋势,本次ICLR上涌现了《DISCRETE DIFFUSION VLA》《dVLA》等多篇论文,在LIBERO评测中取得了近乎饱和的表现。
趋势二:具身思维链(ECoT)让机器人先想后做
让机器人更聪明,光靠模仿是不够的,它还得学会“思考”。具身思维链(Embodied Chain-of-Thought, ECoT)正是这一思路的集中体现。
其核心思想是:在生成动作前,先生成一系列中间推理步骤,使机器人具备更强的计划与解释能力。
这些步骤可以是:
文本规划:“我需要先找到红色杯子”视觉感知:定位关键目标轨迹构图:设计移动路径这种先想后做的模式不仅更具可解释性,也显著提升复杂场景中的泛化能力。
但ECoT对高质量标注数据依赖较大,而这类数据仍较稀缺。
本次ICLR中,如《ACTIONS AS LANGUAGE》《EMBODIED-R1》等论文,通过推理-动作解耦和多阶段训练流程,在SIMPLER等评测中表现突出。
趋势三:动作分词器(Action Tokenizer)让动作可语言化
VLA的一个核心难点是:如何将连续、高频的机器人动作转换为VLM能理解的离散“词汇”(Token)?
这正是动作分词器(Action Tokenizer)的作用所在。它是连接VLM“大脑”与机器人“身体”的桥梁。

今年的新进展包括:
FASTer Tokenizer:结合残差矢量量化(RVQ),在压缩率与动作连续性间取得平衡OmniSAT:借助B样条曲线(B-Splines)对动作建模,实现更紧凑表达在LIBERO和SIMPLER中,这些方法提升了精度与稳定性,为语言模型驱动的机器人控制奠定基础。
趋势四:强化学习(RL)打通最后一公里
模仿学习虽可快速习得基础操作,但极端场景下表现仍有限。因此,强化学习(RL)重新登场,作为VLA策略的微调利器。
今年的代表技术包括:
残差RL(Residual RL):在冻结VLA策略上叠加一个轻量“残差策略”,实现关键时刻干预与优化阶段感知RL(Stage-aware RL):将复杂任务拆分成语义阶段,进行分阶段奖励与策略训练代表作如《SELF-IMPROVING… VIA RESIDUAL RL》《PROGRESSIVE STAGE-AWARE…》在LIBERO和SIMPLER上分别取得了99%和98%的成功率。
趋势五:效率优化(Efficiency)让VLA走向平民化
VLA模型庞大、成本高昂,令许多中小实验室望而却步。因此效率优化成为研究重点。
典型代表有这两大方向:
推理效率:如HyperVLA采用超网络机制,动态生成轻量策略网络显存占用:如AutoQVLA采用智能量化,压缩模型体积同时保持性能这些方法大幅降低了硬件门槛,让更多研究者能够参与VLA研究。
趋势六:视频预测赋予VLA物理直觉
视频生成模型天然理解时序动态和物理规律,这对于机器人控制是极强的先验知识。

这个方向主要有两种思路:
在VLM基础上增加未来帧预测任务从视频生成大模型(如NVIDIA的Cosmos)出发,微调使其具备动作生成能力例如《COSMOS POLICY》就成功将一个视频基础模型微调用于机器人控制,并在真实世界中与Pi-0.5等前沿模型进行了对比。
这些工作表明,赋予VLA“想象”未来的能力,能有效提升其对物理世界的理解。
趋势七:更真实的评测基准
正如后文会提到的,现有评测集已近饱和。为此,社区正在积极开发新的评测方式。

这些新基准致力于打破对现有测试集的过拟合,推动VLA研究走向更有意义的泛化能力。
趋势八:跨体态学习是必经之路
如何让一个模型同时驱动不同结构(Action Space)的机器人?这是通往通用机器人的核心挑战。

这些架构上的创新,是构建能够适应不同硬件的通用机器人策略的关键一步。
现状问题:不要迷信高分,评测正在失真
研究员Reuss在文中指出:主流仿真评测(如LIBERO、CALVIN)存在“性能天花板”问题。
很多模型得分虽高,却难以转化为现实能力,原因如下:
数据鸿沟:头部公司掌握海量高质量真实数据,是开源数据难以比拟的评测维度差异:工业界更看重开放环境、泛化能力、失败恢复资源与迭代:大规模集群与工程支持带来快速优化能力开源模型在仿真环境中得分甚至高于Google的Pi-0.5,但在真实世界中,仍难匹敌这些前沿产品。
未来两大关键问题:仍被忽视的数据与学习方式
文章的最后,Reuss还指出两个VLA研究中尚未受到足够重视的问题:
数据质量:与其关注数据量,不如关注数据中的噪声、歧义、次优行为,这些都可能限制模型上限上下文学习(In-context Learning):这一在LLM中常见的机制,能否迁移到机器人领域,或许是通用VLA的突破口作者介绍
这篇综述的作者Moritz Reuss,是德国卡尔斯鲁厄理工学院(KIT)的四年级博士生,长期致力于从人类演示、视觉与语言中构建通用机器人AI系统。

他也是将扩散模型引入机器人策略研究的先行者,而这恰好是本次综述中提到的热门趋势之一。
作为2025年Apple AI/ML学者奖获得者,他的研究成果已多次发表于RSS、ICLR、NeurIPS等顶会。可以说,这份综述来自科研一线的“圈内人”。
最后,VLA的这么多技术方向,你最看好哪一个?是更快的离散扩散,还是更聪明的思维链?或者你认为数据才是唯一的密码?
欢迎在评论区分享你的看法。
参考链接:
[1]https://mbreuss.github.io/blog_post_iclr_26_vla.html
[2]https://www.linkedin.com/in/moritzreuss/
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
快编AI :免费智能AI创作平台-免费试用、收费介绍、效果评测、官网入口及在线体验、APP下载和教程
快编AI是什么? 在内容创作的领域里,效率和质量常常难以兼得。直到你遇到快编AI,这个定位精准的智能写作与内容优化平台。它基于先进的AI模型,核心使命就是帮助用户快速生成高质量文章,把创作者从繁琐的格式调整和灵感枯竭中解放出来。 它的本领远不止于此。这个平台支持多种文体格式,并整合了自动排版、智能优
龙虾(OpenClaw)连接企业微信
1 创建与配置企微机器人 步骤一:创建企微机器人 咱们先从准备工作开始。请使用电脑打开企业微信客户端。如果你的电脑上还没有安装,可以前往官网 https: work weixin qq com 下载并安装。 登录账号后,进入“工作台”,点击“创建机器人”按钮。 步骤二:点击“手动创建”按钮 在
摩点众筹官网入口
摩点众筹:一个深耕文创领域的众筹先锋 说到国内的文化创意众筹,摩点网(摩点众筹)是个绕不开的名字。这个专注于文创领域的平台,自2014年成立以来,就一直致力于为游戏、动漫、出版、设计等领域的创意项目提供启动的燃料。它的核心模式是回报式众筹,简单来说,就是支持者出资,项目方以实体产品、数字内容或独特体
达人室内设计网-室内设计门户网站
达人室内设计网:设计师的灵感引擎与专业社区 在国内设计圈,提起专业交流与灵感获取,有一个平台的名字总会被频繁提及——达人室内设计网。作为中国领先的室内设计门户,它深耕行业数年,核心使命一直很明确:为全国的室内设计师、软装设计师以及地产家居装饰领域的同行,打造一个纯粹、优质且权威的互动合作生态。目前,
ACL 2026|清华新作ControlAudio:声音何时响、说啥话?都能按剧本可控生成!
让AI“听话”:清华团队提出ControlAudio,精准控制音频生成的时间与内容 文本到音频生成技术近年来取得了突破性进展。从早期只能合成简单的提示音,到如今基于扩散模型,已经能够根据“森林中的鸟鸣声”等复杂描述,生成高度逼真的环境音效。这为影视后期、游戏开发及多媒体内容创作开辟了广阔前景。 然而
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

