小米开源VLA大模型:刷新多领域SOTA性能新纪录
2月12日消息,小米正式发布并开源了首款机器人VLA大模型——Xiaomi Robotics 0。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
这款模型拥有47亿参数,其核心解决了传统VLA模型推理延迟、真机动作不连贯等行业痛点,兼具视觉语言理解与高性能实时执行能力,可在消费级显卡上实现实时推理,在仿真测试和真机任务中均刷新了多项SOTA成绩。

Xiaomi Robotics 0采用混合Transformer架构,通过“视觉语言大脑+动作执行小脑”的组合,实现了感知、决策、执行的高效闭环,兼顾通用理解与精细动作控制。
视觉语言大脑:以多模态VLA大模型为底座,能精准理解人类模糊自然指令,同时捕捉高清视觉输入中的空间关系,是模型的“决策核心”;
动作执行小脑:嵌入多层Diffusion Transformer,不直接输出单一动作,而是生成高频、平滑的“动作块”,并通过流匹配技术保障动作精准度,让机器人动作更具物理灵活性。

为避免模型学动作丢失基础理解能力,小米设计了跨模态预训练+后训练的两阶段训练方法,让模型既懂常识又精通体力活。
跨模态预训练:先通过多模态与动作数据混合训练,引入Action Proposal机制让VLM的特征空间与动作空间对齐;再冻结VLM专注训练DiT,使其从噪声中恢复精准动作序列,保障动作的平滑性;
后训练:这是解锁物理智能的核心,采用异步推理模式从机制上解决真机“动作断层”问题;同时引入Clean Action Prefix保障动作轨迹时间连续性,通过λ-shape Attention Mask让模型聚焦当前视觉反馈、摆脱历史惯性,大幅提升机器人对环境突发变化的响应能力。

实测该模型在多维度测试中均展现出行业领先水平,实现“仿真通、真机强、多模态能力不丢失”的突破。
仿真测试:在LIBERO、CALVIN、SimplerEnv三大主流仿真测试的所有Benchmark中,对比30种现有模型均取得当前最优结果;
真机任务:在双臂机器人平台部署后,面对积木拆解、叠毛巾等长周期、高难度任务,展现出极高的手眼协调性,能灵活处理刚性积木和柔性织物等不同材质物体;
多模态能力:保留了VLM本身的物体检测、视觉问答、逻辑推理等能力,在具身相关基准测试中表现优异,弥补了传统VLA模型重动作、轻理解的短板。


小米已将Xiaomi Robotics 0的技术主页、开源代码、模型权重全量开放,相关资源可在GitHub、Hugging Face等平台获取,为全球具身智能领域的开发者和研究机构免费提供技术支持。

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
印度50岁教授课堂向女生求婚 遭围殴视频引关注
3月28日消息,近日,印度班加罗尔一段争议视频引发热议:一名50岁的医学院助理教授,竟在课堂上当着全班学生的面,向一名女学生公开求婚,后续遭到学生们围殴。据相关视频显示,涉事教授在课堂上宣称:“我无
骑手心声:全网寻人后续,孩子平安是最好的消息
3月28日消息,近日深圳一位母亲发帖寻找美团骑手的消息引发广泛关注。据悉,当时这位母亲抱着突发抽搐的孩子在医院附近体力不支,情况万分紧急。 一名路过的骑手见状主动载着母子俩直奔急诊门口,不仅帮她节省
女子打网约车因1口价被骂 成都:自导自演罚10万
3月28日消息 3月27日,成都市公安局郫都区分局发布警情通报:近日,我局接群众举报,反映有人在网络平台发布“网约车驾驶员辱骂乘客”视频,引发社会关注。接报后,我局立即依法开展调查。经查,违法行为人
莱卡破产启示:纤维巨头陨落背后的行业变革
3月28日消息,全球知名的弹性纤维制造商莱卡公司(The LYCRA Company)近日传出重磅消息,其已正式提交破产保护申请。作为曾经彻底改变人类穿衣方式的纤维巨头,这一落幕信号令全球纺织行业倍
4月1日起俄罗斯拟禁汽油出口,全球油价或再迎上涨
3月28日消息 据新华社报道,俄罗斯政府日前宣布了一项重要的能源指令。俄副总理亚历山大·诺瓦克已指示能源部起草行政命令,计划从4月1日起全面禁止汽油出口。此举的核心目的是在中东战事引发全球能源市场动
- 日榜
- 周榜
- 月榜
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程

