港科大开源StarVLA视觉大模型模块化架构大幅降低复现成本

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

港科大开源StarVLA视觉大模型模块化架构大幅降低复现成本

热心网友时间：2026-05-19

转载

当前，视觉语言动作模型（VLA）作为具身智能的核心技术路径，正面临严重的“碎片化”挑战。不同团队采用的动作解码范式各异，数据与训练管线深度绑定，评测标准互不统一，导致研究成果难以横向对比，复现成本高昂，这严重阻碍了领域基础模型的迭代与进步。

针对这一行业痛点，开源项目StarVLA并未选择盲目堆砌算力或追逐榜单分数，而是从系统设计层面进行根本性创新。它提出了一套名为Backbone-Action Head的“乐高式”统一架构，旨在通过高度的模块化与抽象，破解当前的研究僵局。

破解VLA研究的“巴别塔”三重困境

尽管VLA模型被公认为实现通用具身智能的主流方案，但其学术研究却深陷三重障碍，犹如“巴别塔”的诅咒，阻碍了有效的交流与进展：

架构割裂：自回归离散Token生成、并行连续回归、基于流匹配的去噪、双系统推理……这些不同的动作解码范式，背后是截然不同的代码实现逻辑与接口假设。

管线强耦合：许多现有开源框架更像是为单一方法定制的“黑箱”，其数据预处理、训练循环和评测协议紧密耦合，导致功能模块无法在不同项目间轻松复用。

评测标准不一：各研究论文通常在互不重叠的基准子集上报告性能，且预处理与推理细节不透明，使得公平、客观的模型对比几乎无法实现。

StarVLA项目的核心使命，正是要打破这种碎片化现状，为社区提供一套统一的解决方案。

架构创新：策略中心的“乐高”式模块化设计

StarVLA的核心洞见在于，它认为基于视觉语言模型（VLM）和基于世界模型（World Model）的VLA并非对立范式，而是同一策略框架下，利用不同辅助学习信号（L_aux）的变体。

基于这一理念，团队构建了一个高度模块化、接口统一的开源基础框架。研究者可以像拼接乐高积木一样，自由组合不同的主干网络与动作头模块，在完全可控的实验条件下，精准验证单一设计变量的影响。

在系统层面，StarVLA引入了统一的策略中心公式，将多模态历史观测、语言指令与未来动作序列映射到同一计算图中。其训练目标被清晰地分解为三类：

直接VLA：纯粹的动作序列监督学习。
基于VLM的VLA：在动作学习外，引入语言对齐辅助目标，例如子任务规划或空间 grounding。
基于世界模型的VLA：引入对未来观测的预测作为辅助学习目标或隐式先验。

在这一抽象框架下，StarVLA实现了双向可插拔的模块化：

可插拔主干网络：支持Qwen3-VL、InternVL等经过指令微调的视觉语言模型，以及Cosmos-Predict2等世界模型。只需轻量的适配层，即可接入统一的特征表示契约。
可插拔动作头：内置了四种代表性的动作解码器，它们共享相同的forward()与predict_action()接口。包括自回归离散Token生成器、轻量级MLP并行连续回归器、层间交叉DiT流匹配去噪器，以及System 2+System 1双系统推理架构。

所有架构变体共享同一套数据接口、训练循环与评测管线。仅需替换主干或动作头即可完成范式切换，彻底消除了跨方法对比时因基础设施不同而产生的“隐性变量干扰”。

训练范式：从单一微调迈向多模态协同优化

StarVLA将训练策略抽象为与架构解耦的可复用配置，主要支持三大核心训练范式。

1. 行为克隆监督微调

提供完整的分布式训练脚本，支持全参数微调与特定子模块冻结。优化器采用多参数组独立学习率、bfloat16混合精度训练与余弦衰减调度策略，确保异构组件能够稳定、高效地协同训练。

2. 多目标协同训练

纯粹的VLA动作微调极易导致预训练的VLM主干发生“灾难性遗忘”，丧失原有的多模态理解能力。StarVLA内置了双数据流协同机制：交替执行VLA动作预测前向传播与VLM语言建模前向传播，通过动态平衡损失权重，同步优化动作学习与多模态表征保留。实验证明，该协同训练策略能显著提升模型的空间 grounding 能力，并在多个机器人仿真平台上带来4%至10%的任务成功率提升。