VLA模型入门指南:一篇看懂原理与实战应用

ICLR 2026爆火领域VLA(Vision-Language-Action,视觉-语言-动作)全面综述来了!
如果你还不了解VLA是什么,以及这个让机器人学者集体兴奋的领域进展如何,看这一篇就够了。

文章作者Moritz Reuss是2025年Apple AI/ML学者奖得主,曾在RSS、ICLR、NeurIPS等顶级会议多次发表研究成果。这篇综述既是一线研究者的实战总结,也是洞察趋势的前沿观察。
文章一出,评论区好评不断,甚至顶级猎头Mark Wallace直接抛出了橄榄枝。

这个VLA,究竟有多火?
据统计,VLA模型相关投稿量,从去年的个位数飙升至164篇,足足增长了18倍。
这股热潮背后,让机器人“听懂人话、看懂世界、动手干活”,正成为AI领域极具吸引力的前沿阵地。
然而,在这片繁荣之下,一个问题也随之浮现:当我们谈论VLA的进步时,我们到底在谈论什么?
明确VLA的概念
在深入探讨技术趋势前,我们必须先明确一个基本概念:什么样的模型,才有资格被称为VLA?
学术界对此尚无统一定义,但研究员Moritz Reuss在他的综述中提出了一个标准:
一个模型必须使用经过大规模、互联网级别的视觉-语言数据预训练过的骨干(pre-trained backbone),才能被称为VLA。
麻 将这一定义强调模型能力的来源:VLA必须具备通过图文预训练习得的语言理解、视觉泛化和任务迁移能力。
代表模型如Google的PaLI-X,或开源项目Llava、Florence-2等。
而如果一个模型只是简单地将独立的视觉编码器和文本编码器拼在一起,那它更应该被称为“多模态策略”(Multimodal Policies)。
与之相关,还有一个概念值得一提:大型行为模型(Large Behavior Models, LBMs)。这是丰田研究院提出的术语,指在“大规模、多任务的机器人演示数据”上训练出的策略。
可以这样理解:
VLA强调的是“基因”,即必须继承自一个强大的VLM(视觉语言模型)
LBM强调的是“养料”,即必须用海量的机器人操作数据进行训练
一个在大量机器人数据上微调的VLA,同时也是一个LBM。
但一个LBM,不一定是一个VLA。搞清楚这个边界,才有助于我们理解不同技术路线的侧重。
透过ICLR 2026看VLA八大趋势
趋势一:VLA的高效架构新范式
如果说今年VLA架构有什么新风向,当属离散扩散模型(Discrete Diffusion)。

传统的自回归模型一个字一个字写,必须生成完上一个动作单元,才能生成下一个。
而离散扩散模型则可以并行化地一次性生成整个动作序列。这带来了几个好处:
高效生成:减少前向传播次数,提高推理效率 思维动作融合:可并行生成动作与推理过程(如子目标、关键物体位置),即具身思维链(Embodied Chain-of-Thought, ECoT)关于这个趋势,本次ICLR上涌现了《DISCRETE DIFFUSION VLA》《dVLA》等多篇论文,在LIBERO评测中取得了近乎饱和的表现。
趋势二:具身思维链(ECoT)让机器人先想后做
让机器人更聪明,光靠模仿是不够的,它还得学会“思考”。具身思维链(Embodied Chain-of-Thought, ECoT)正是这一思路的集中体现。
其核心思想是:在生成动作前,先生成一系列中间推理步骤,使机器人具备更强的计划与解释能力。
这些步骤可以是:
文本规划:“我需要先找到红色杯子” 视觉感知:定位关键目标 轨迹构图:设计移动路径这种先想后做的模式不仅更具可解释性,也显著提升复杂场景中的泛化能力。
但ECoT对高质量标注数据依赖较大,而这类数据仍较稀缺。
本次ICLR中,如《ACTIONS AS LANGUAGE》《EMBODIED-R1》等论文,通过推理-动作解耦和多阶段训练流程,在SIMPLER等评测中表现突出。
趋势三:动作分词器(Action Tokenizer)让动作可语言化
VLA的一个核心难点是:如何将连续、高频的机器人动作转换为VLM能理解的离散“词汇”(Token)?
这正是动作分词器(Action Tokenizer)的作用所在。它是连接VLM“大脑”与机器人“身体”的桥梁。

今年的新进展包括:
FASTer Tokenizer:结合残差矢量量化(RVQ),在压缩率与动作连续性间取得平衡 OmniSAT:借助B样条曲线(B-Splines)对动作建模,实现更紧凑表达在LIBERO和SIMPLER中,这些方法提升了精度与稳定性,为语言模型驱动的机器人控制奠定基础。
趋势四:强化学习(RL)打通最后一公里
模仿学习虽可快速习得基础操作,但极端场景下表现仍有限。因此,强化学习(RL)重新登场,作为VLA策略的微调利器。
今年的代表技术包括:
残差RL(Residual RL):在冻结VLA策略上叠加一个轻量“残差策略”,实现关键时刻干预与优化 阶段感知RL(Stage-aware RL):将复杂任务拆分成语义阶段,进行分阶段奖励与策略训练代表作如《SELF-IMPROVING… VIA RESIDUAL RL》《PROGRESSIVE STAGE-AWARE…》在LIBERO和SIMPLER上分别取得了99%和98%的成功率。
趋势五:效率优化(Efficiency)让VLA走向平民化
VLA模型庞大、成本高昂,令许多中小实验室望而却步。因此效率优化成为研究重点。
典型代表有这两大方向:
推理效率:如HyperVLA采用超网络机制,动态生成轻量策略网络 显存占用:如AutoQVLA采用智能量化,压缩模型体积同时保持性能这些方法大幅降低了硬件门槛,让更多研究者能够参与VLA研究。
趋势六:视频预测赋予VLA物理直觉
视频生成模型天然理解时序动态和物理规律,这对于机器人控制是极强的先验知识。

这个方向主要有两种思路:
在VLM基础上增加未来帧预测任务 从视频生成大模型(如NVIDIA的Cosmos)出发,微调使其具备动作生成能力例如《COSMOS POLICY》就成功将一个视频基础模型微调用于机器人控制,并在真实世界中与Pi-0.5等前沿模型进行了对比。
这些工作表明,赋予VLA“想象”未来的能力,能有效提升其对物理世界的理解。
趋势七:更真实的评测基准
正如后文会提到的,现有评测集已近饱和。为此,社区正在积极开发新的评测方式。

这些新基准致力于打破对现有测试集的过拟合,推动VLA研究走向更有意义的泛化能力。
趋势八:跨体态学习是必经之路
如何让一个模型同时驱动不同结构(Action Space)的机器人?这是通往通用机器人的核心挑战。

这些架构上的创新,是构建能够适应不同硬件的通用机器人策略的关键一步。
现状问题:不要迷信高分,评测正在失真
研究员Reuss在文中指出:主流仿真评测(如LIBERO、CALVIN)存在“性能天花板”问题。
很多模型得分虽高,却难以转化为现实能力,原因如下:
数据鸿沟:头部公司掌握海量高质量真实数据,是开源数据难以比拟的 评测维度差异:工业界更看重开放环境、泛化能力、失败恢复 资源与迭代:大规模集群与工程支持带来快速优化能力开源模型在仿真环境中得分甚至高于Google的Pi-0.5,但在真实世界中,仍难匹敌这些前沿产品。
未来两大关键问题:仍被忽视的数据与学习方式
文章的最后,Reuss还指出两个VLA研究中尚未受到足够重视的问题:
数据质量:与其关注数据量,不如关注数据中的噪声、歧义、次优行为,这些都可能限制模型上限
上下文学习(In-context Learning):这一在LLM中常见的机制,能否迁移到机器人领域,或许是通用VLA的突破口
作者介绍
这篇综述的作者Moritz Reuss,是德国卡尔斯鲁厄理工学院(KIT)的四年级博士生,长期致力于从人类演示、视觉与语言中构建通用机器人AI系统。

他也是将扩散模型引入机器人策略研究的先行者,而这恰好是本次综述中提到的热门趋势之一。
作为2025年Apple AI/ML学者奖获得者,他的研究成果已多次发表于RSS、ICLR、NeurIPS等顶会。可以说,这份综述来自科研一线的“圈内人”。
最后,VLA的这么多技术方向,你最看好哪一个?是更快的离散扩散,还是更聪明的思维链?或者你认为数据才是唯一的密码?
参考链接:
[1]https://mbreuss.github.io/blog_post_iclr_26_vla.html
[2]https://www.linkedin.com/in/moritzreuss/
免责声明
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
飞行模拟爱好者购波音747旧舱,打造真实模拟器迎圣诞
一群由建筑师、工程师和航空爱好者组成的团队,正在将一架退役波音747-300客机的驾驶舱改造成全球最逼真的飞行模拟器之一。这个名为Jurassic Jets Team的跨领域团队,以这架1983年首
北京现代EON来袭!11.98万起能否抢占新能源市场?
在新能源汽车领域,自主品牌长期占据主导地位,合资品牌曾一度被边缘化,甚至被部分消费者视为“杂牌”。然而,近年来合资品牌开始加速转型,逐渐适应中国市场的新能源需求。广汽丰田铂智3X、日产N7等车型凭借
小米汽车全国布局提速:424家门店覆盖125城
10月31日消息,今天,小米汽车向大家汇报小米汽车开店新进展。10月新增22家门店,全国125城已有424家门店。11月计划新增17家门店,预计覆盖吉安、临汾、南阳、十堰、渭南、宜宾6座新城市。据了
2025款吉利星愿升级版:年轻消费者的购车新思路
在纯电小车市场竞争愈发白热化的当下,吉利星愿2025款携一系列升级配置强势登场,以实际行动回应市场挑战。这款新车在价格依旧亲民的前提下,从外观到智能配置都进行了精心打磨,不仅性价比大幅提升,更精准捕
东风日产携手华为,天籁·鸿蒙座舱开启燃油车智能新纪元
在汽车智能化浪潮席卷行业的当下,东风日产与华为乾崑的跨界合作引发广泛关注。双方以 "打破能源形式壁垒,重构智能出行体验 "为核心目标,正式推出全球首款搭载鸿蒙智能座舱系统的燃油车型——天籁·鸿蒙座舱,为
热门推荐
热门教程
更多- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
 
												
                                                 
												
                                                 
												
                                                 
												
                                                 
												
                                                 
												
                                                 
												
                                                 
												
                                                 
												
                                                 
												
                                                 
												
                                                 
												
                                                 
												
                                                 
												
                                                 
												
                                                 
												
                                                 
												
                                                 
												
                                                 
												
                                                 
												
                                                








 
								 
								 
								 
								 
								 
								 
								 
								 
								