上海AI实验室发布InternVL-A1:让机器人拥有关键空间智能
上海人工智能实验室 Intern Robotics 团队最新宣布,其开发的统一视觉-语言-动作框架 InternVLA-M1 取得重要突破。这项发布在 arXiv 平台的研究(编号:2510.13778v1)通过创新的空间引导训练策略,成功解决了机器人理解复杂指令并精准执行动作的难题。实验数据显示,该系统在多个基准测试中超越了现有方法,尤其在真实世界杂乱环境中的表现提升了超过 20%,为通用机器人研发开辟了新路径。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
传统机器人在执行"将桌上红色苹果放入篮子"这类任务时,往往需要同时应对理解人类语言的模糊性,以及如何在三维空间中精准定位物件。研究团队提出的解决方案借鉴了人类的认知模式,构建了包含 41 亿参数的双系统架构。该系统由视觉语言模型规划器和动作专家组成,前者负责分析任务要求、识别物体位置并制定行动计划,后者则将高层规划转化为精准的机械臂控制信号。这种分工模式使得系统在单张 RTX 4090 显卡上即可实现每秒 10 帧的推理速度,内存占用控制在 12GB 以内。
训练策略的创新是这项研究的核心突破。团队采用分阶段训练法:首先通过 230 万个空间推理样本构建基础能力,涵盖物体检测、点定位、轨迹预测等核心任务;随后在仿真环境中生成 24.4 万个可泛化场景,训练系统将空间理解转化为具体动作。这种"先理解空间再执行动作"的策略,使系统在 SimplerEnv 测试中成功率提升 14.6%,在真实世界杂乱场景中的表现提高达 20.6%。特别是在长时程任务中,系统展现出强大的规划能力,能动态调整策略应对物理干扰和任务变更。
为支撑大规模训练需求,研究团队构建了高度逼真的仿真平台。该平台整合了 14716 个物体模型、200 余张桌子、80 种光照条件和 1676 种纹理,通过分离物理计算与渲染过程,实现高效数据生成。每个训练样本都经过双重验证:物理引擎确保动作可行性,场景图验证器检查任务完成度。这种严格的质量控制机制,使系统在未见过物体和新配置场景中仍能保持稳定性能,显著提升了仿真到现实的迁移能力。
在评估环节,InternVLA-M1 展现出全方位优势。在 LIBERO 基准测试中,系统在空间推理和长时程任务子集上分别达到 98.2% 和 97.5% 的成功率,超越最强基线方法 1.6 个百分点。真实世界测试中,配备 Robotiq 夹爪的 Franka 机械臂在 23 个已见物体和 5 个已见容器的分类任务中,通过协同训练将未见过物体操作成功率提升至 20.6%。在抽屉操作任务中,系统能实时感知人为干预并调整动作序列,展现出强大的环境适应能力。
技术细节方面,研究团队设计了轻量级查询变换器连接双系统,通过梯度衰减因子平衡多模态知识学习。空间提示策略的引入,使系统在执行任务时自动激活预训练的空间感知能力。双重监督机制则确保视觉语言模型规划器与动作专家协同优化,在保持语义推理能力的同时实现高效端到端训练。这些创新使系统在处理绝对/相对位置指令时表现出色,有效解决了数据驱动模型泛化不足的问题。
这项研究的公开资源为后续研究奠定基础。团队不仅发布了完整代码和模型参数,还开源了包含 300 万个多模态样本的训练数据集。详细的评估基准覆盖从简单抓取到复杂推理的 200 余个任务,为机器人学习领域提供了标准化测试平台。随着技术持续完善,这种空间引导训练范式有望推动通用机器人进入更多实际应用场景,实现更自然的人机协作。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
OpenClaw 是什么?OpenClaw 详细使用教程及中转 API 优缺点
OpenClaw 是什么?OpenClaw 详细使用教程及中转 API 优缺点分析 最近,圈子里的讨论热度明显聚焦在一个词上:OpenClaw。无论是开发者,还是正在推进AI项目的团队,都在打听它。这工具到底是什么?能解决什么问题?配上那些中转Token,真的就高枕无忧了吗?今天,我们就来把这事儿掰
OpenClaw教程(八)—— 为OpenClaw打造记忆系统
上一篇我们探讨了OpenClaw的自动化能力,今天的话题,可以说是一个AI助手能否真正“进化”的关键——如何为它构建一套有效的记忆系统。 随着助手能力的不断扩展,它每天处理的事务会越来越多,产生的信息量也会急剧增长:例行检查、异常发现、你下达的各种指令……如果没有记忆,每次唤醒它都如同面对一张白纸,
OpenClaw创建 Skills
SKLL md 在构建AI助手自定义技能的过程中,一个基础的“打招呼”功能看似简单,却是理解整套开发流程的绝佳入口。这个名为 hello_world 的技能模板,完整展示了一个规范的技能描述文件应如何构成,是所有复杂功能开发的基石。 ---name: hello_worlddescription:
让 AI 替你叫车,哈啰顺风车上线出行行业首个 MCP 服务
让 AI 替你叫车:哈啰顺风车上线出行行业首个 MCP 服务 4月3日,哈啰顺风车推出一项业内瞩目的创新举措:正式上线名为MCP的新型服务。通俗来讲,这项服务将顺风车从寻找车主、智能匹配到最终下单支付的完整流程能力,封装成了一套标准化的技术接口,直接向各类大语言模型和AI智能体开放调用权限。 这一变
QQ接入openclaw的几个步骤
2026年4月新版OpenClaw QQ机器人接入全攻略:实践步骤、问题排查与深度解读 随着2026年4月OpenClaw重要更新的发布,其原生集成QQ平台支持的功能引起了大量开发者的关注。这一特性意味着用户无需借助任何第三方插件,即可将智能AI助手便捷地部署为QQ私聊或群聊机器人。本文将系统性地解
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程

