蚂蚁灵波LingBot-VA论文入选RSS 2026 实现机器人推演与行动同步
近日,机器人学界迎来一项重要进展:蚂蚁灵波科技联合香港科技大学等高校共同完成的研究论文《Causal World Modeling for Robot Control》,正式被国际机器人顶级学术会议Robotics: Science and Systems(RSS)2026接收。
RSS在全球机器人研究领域享有极高声誉,长期聚焦于机器人学习、控制与感知等前沿方向,其录用标准极为严格。此次论文成功入选,不仅彰显了研究工作的学术创新性,也标志着该成果获得了国际同行的高度认可。
这项研究致力于解决一个核心挑战:如何让机器人超越简单的动作执行,具备类似人类的预判能力,在行动前就能推断环境变化。为此,研究团队提出了一个面向机器人控制的因果世界建模框架,并在此基础上构建了全球首个开源的自回归视频-动作世界模型——LingBot-VA。该模型的突破性在于,它使机器人能够在任务执行过程中,持续预测环境状态的演变,并基于预测结果生成后续动作指令,从而实现“观察-判断-行动”一体化的类人智能。

对蚂蚁灵波而言,此次论文入选RSS 2026,是对其在“世界模型驱动机器人控制”这一技术路线上探索的重要肯定。它进一步验证了LingBot-VA作为具身智能基础模型的技术潜力。从长远看,这一技术路径有望推动机器人从依赖精确编程的“执行器”,向具备环境理解、任务泛化与自主决策能力的“智能体”演进。
机器人技术面临的真正难点,往往不在于“如何动作”,而在于理解“动作引发的后果”。例如,拿起杯子后桌面会空出位置,推开抽屉后内部物品的布局会改变。LingBot-VA的核心创新,正是将这种对未来状态的因果预测能力嵌入了控制闭环。它让机器人学会先“模拟推演”世界接下来会如何变化,再依据这个推演结果来决定当前的最佳行动策略。
这也正是论文强调“因果”建模的意义所在。真实世界的变化遵循严格的时间顺序与因果关系,因此机器人的预测也必须沿着时间线逐步向前推演。LingBot-VA将这种因果约束固化在模型架构中,确保每一步预测都严格依赖于先前的观察与动作,从而生成连贯、可靠的因果轨迹。这种设计不仅提升了预测的准确性,也赋予了模型更强的长期记忆与推理能力,对于完成步骤复杂、耗时较长的实际任务至关重要。
在技术实现上,LingBot-VA采用了混合专家Transformer架构,巧妙地将视频预测与动作生成统一在一个自回归扩散框架内。此外,模型引入了闭环推演机制,能够在任务执行中持续接收真实环境的反馈,从而有效降低长时序预测中的误差累积。
为全面评估LingBot-VA的性能,研究团队在仿真基准与真实机器人任务上进行了系统测试。在RoboTwin 2.0的50个双臂操作任务中,LingBot-VA在Easy和Hard两种设置下,分别取得了92.0%和91.1%的平均成功率;在LIBERO基准上的成功率更是达到98.5%。
在更具挑战的真实世界评测中,面对长时序、高精度操作以及柔性物体与关节物体操控三大类共6项高难度任务,LingBot-VA仅需50条真实示范数据即可完成适配。其整体成功率较业界主流基线方法π0.5提升了超过20个百分点,展现出卓越的数据效率与泛化性能。
目前,LingBot-VA的模型权重、训练与推理代码均已开源。研究人员与开发者可通过Model Scope、Hugging Face及GitHub平台获取相关资源。
论文链接:https://arxiv.org/abs/2601.21998
项目主页:https://technology.robbyant.com/lingbot-va
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
Uber四个月用尽全年AI预算 科技巨头烧钱竞赛引关注
Uber在2026年仅四个月就耗尽了全年AI预算,高昂运营成本与业务回报不成正比。其内部AI工具使用量激增,却未转化为用户端的功能提升。为承担AI开销,公司甚至缩减人员招聘规模。管理层质疑,若成本长期无法证明能转化为实用服务,这种投入将难以持续。
KIMI WebBridge上线实现浏览器全功能智能操控
Kimi团队发布WebBridge浏览器插件,使AI助手能直接操控浏览器完成网页操作。插件可通过官方渠道安装并连接AIAgent,连接成功后即可演示其控制浏览器执行任务的能力。该工具基于CDP协议,能提升操作效率。
Agent Harness 最小版安装与使用指南
评估Agent需系统考察其工具调用、中间结果与任务遵循过程,而不仅看最终答案。构建最小化harness可将任务置于可控环境,限定工具使用,完整记录执行轨迹并进行客观评分。该框架包含任务、环境、工具、轨迹和评分器五个模块,实现过程可追溯、可复现的评估,推动Agent能力检验走向标准化与透明化。
Token经济模型解析:从概念到实践的全景指南
DeepSeek模型兴起催生海量算力需求,推动“Token经济”按量计费新模式。智算中心需转型为高效低成本的“Token工厂”,面临硬件优化与异构算力统一调度挑战。庆阳作为“东数西算”枢纽,凭借规模与性能兼具的智算底座,通过异构融合与生态协作,成功支持DeepSeek落地,验证了Token经济模式的可行性。
普渡科技发布类人形具身智能机器人闪电匣Arm
普渡科技发布全球首款商用类人形具身智能服务机器人闪电匣Arm。它集成移动、操作与交互能力,配备仿生双臂与灵巧手,可自主导航、精细操作并理解自然指令,适用于酒店、零售、医疗等复杂场景,标志着商用服务机器人进入具身智能新阶段。
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

