蚂蚁开源LingBot-VLA真机训练代码
最近,具身智能领域有个值得关注的新动向。蚂蚁集团旗下的灵波科技,宣布全面开源其具身基座模型LingBot-VLA的真机后训练工具链。这意味着,开发团队现在可以基于这变钱成的工具,利用自己的数据,快速将LingBot-VLA适配到自家的机器人和具体任务上。要知道,这距离他们今年1月开源模型权重才过去几个月,可以说是朝着工程化落地,又迈出了非常扎实的一步。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

真机部署的最大痛点:不是没有模型,而是用不起来
眼下,开源模型在具身智能领域并不少见,但“有模型”和“用起来”之间,往往隔着一道巨大的工程鸿沟。各家机器人在机械臂构型、末端执行器、传感器配置和控制接口上千差万别,想把一个通用模型部署到自己的真机上,免不了一番大动干戈的定制化改造。这套从数据到部署的完整工程链路,过去往往是各家的核心“秘籍”,很少对外公开。
灵波这次开源的工具链,瞄准的正是这个核心痛点。它系统性地覆盖了真机适配的四个关键环节:
- 数据处理模块:能处理多源LeRobot数据的合并,统一关节维度映射,解决不同机器人数据格式“方言”不通的问题。
- 真机训练配置:提供了针对真机场景优化过的训练参数与流程,算是开箱即用的最佳实践。
- 离线评测工具:让开发者能在实际上机前,先快速验证模型的表现,心里更有底。
- 真机部署模块:支持编译加速,目标很直接——降低推理延迟,让机器人反应更快。
工具链还贴心地提供了含深度信息与不含深度信息两个版本,方便开发团队根据手头的硬件条件灵活选择。
2万小时真机数据打底,9种机器人构型通吃
LingBot-VLA的底气,来自一个在业内都称得上“豪华”的数据基础——大约20000小时的真实机器人操作数据。这些数据可不是仿真生成的,而是实打实通过真机遥操作采集而来,覆盖了包括AgileX Cobot Magic、Galaxea R1Pro/R1Lite、AgiBot G1等在内的9种主流双臂机器人构型。
数据的处理方式也颇具匠心。研究团队设计了一套半自动化的标注流水线:先由人工标注员按原子动作对多视角视频进行切分,然后借助Qwen3-VL这类视觉大模型,生成精确的自然语言指令描述,最终形成(多视角图像,语言指令,动作序列)这样的标准三元组。可以说,这个模型从“学走路”开始,见识的就是各种真实的机械臂运动方式、不同的摄像头视角和夹爪特性,这为它日后能适应不同机器人(跨本体泛化)打下了坚实的基础。
更有价值的是,团队首次在真实机器人领域,系统性地验证了VLA模型的“缩放定律”(Scaling Law)。实验将预训练数据量从3000小时逐步增加到20000小时,结果清晰显示,模型性能随着数据量增加持续提升,而且在20000小时这个量级上,性能增长仍未看到天花板。这为行业后续投入数据建设提供了有力的数据支撑。
150条示教数据就够了,训练效率最高提升2.8倍
对于一线开发者来说,LingBot-VLA最诱人的数字,可能就是“150条”。
实验证明,仅仅需要150条针对新任务的演示数据,LingBot-VLA就能实现高质量的任务迁移。在Agibot G1平台上的测试更为惊人:仅用80条示范数据进行后训练,其表现就已经超越了使用130条完整数据训练的π0.5模型。并且,随着数据量增加,LingBot-VLA的优势还在进一步扩大。
在训练效率上,提升同样显著。得益于底层代码库对FSDP分布式训练、混合精度、算子融合等技术的深度优化,LingBot-VLA在8卡GPU配置下,实现了单卡每秒261个样本的吞吐量。这个效率,达到了StarVLA、OpenPI等主流框架的1.5到2.8倍。以往可能需要一个月才能跑完的实验迭代周期,现在或许一到两周就能完成,这无疑大大加快了研发进度。
真机评测全面超越π0.5,已与多家厂商完成适配
模型好不好,最终还得看实测表现。在权威的评测中,LingBot-VLA已经交出了一份不错的答卷。
在上海交通大学开源的GM-100真机基准测试(包含100项真实操作任务)中,LingBot-VLA在AgileX、Agibot G1、Galaxea R1Pro三个真实机器人平台上,跨本体泛化的平均成功率达到了17.30%(引入深度信息后),相比π0.5的13.0%提升了4.3个百分点;在衡量任务完成进度的得分上,达到35.41%,比π0.5提升了7.76%。
在模拟复杂现实环境的RoboTwin 2.0仿真基准测试中,面对光照变化、杂物干扰、背景波动等高度随机化挑战,LingBot-VLA在清洁场景的成功率达到88.56%,在随机场景下也保持了85.34%的成功率,操作成功率比π0.5提升了近10个百分点。
目前,LingBot-VLA已经与星海图、松灵、乐聚等多家机器人厂商完成了多机型适配验证,这实际证明了该模型在不同机械构型机器人上具备可靠的跨本体迁移能力。
代码已全面开源
目前,LingBot-VLA的完整代码库已在GitHub上开源,模型权重也同步发布在Hugging Face和ModelScope平台。开源的内容非常全面,涵盖了模型权重、数据处理工具、高效微调代码、离线评测系统、部署方案以及详细的技术报告。
这一系列动作的目标很明确:推动具身智能技术栈的标准化,降低工程化门槛。从20000小时真机数据预训练打下的坚实基础,到仅需150条示教数据就能高效迁移的实用性,再到1.5-2.8倍的训练速度提升,灵波科技通过这套开源工具链,正在向业界证明,具身智能的规模化落地,不再仅仅是实验室里的美好蓝图,而是一条已经有清晰脚印、可以稳步前行的工程化路径。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
e络盟播客探讨人工智能与脑科学如何推动以人为本的创新前沿
e络盟最新播客探讨神经科学与人工智能的融合,强调以人为本释放人类潜能。专家指出脑机接口需重视数据伦理与思维多样性保护,并倡导通过可持续方式延长健康寿命,主张结合数据与人性化互动实现健康干预,以增强人类能力。
循证医学助力中国医生临床决策 顶级证据平台登录超193次
中国医生面临工作压力与知识更新挑战。阿里健康发布的“氢离子”AI产品,强调低幻觉与高循证,采用四层循证架构,整合权威指南与文献,旨在为医生提供精准、可信的临床决策支持,缩短决策时间。
谷歌移动端AI战略布局抢先展开
谷歌将Gemini升级为系统级智能操作层,可跨应用理解内容并自动执行任务,同时强调用户控制与安全。该功能今夏首发于Pixel和三星手机,年底扩展至车载设备,意在抢在苹果之前确立移动AI主导权。
蚂蚁开源LingBot-VLA真机训练代码
灵波科技开源具身智能模型LingBot-VLA的真机训练工具链,涵盖数据处理至部署全流程。该模型基于约两万小时真实机器人数据训练,仅需少量示教即可高效迁移任务,训练效率达主流框架1 5至2 8倍。在多项测试中,其跨本体泛化能力与任务成功率显著领先,并已完成与多家厂商的适配验证。
面壁智能发布MiniCPM-V 4.6模型 13亿参数性能全球领先
面壁智能开源端侧多模态模型MiniCPM-V4 6,参数仅1 3B,在多项评测中超越更大模型,登顶同尺寸榜首。它仅需约6GB内存,凭借LLaVA-UHDv4架构与视觉Token压缩技术,实现高效推理与低延迟。该模型已适配主流操作系统,为移动及嵌入式设备提供了高效、低成本的多模态解决方案。
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

