机器人R1学会物理推理动作模仿率达999

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

机器人R1学会物理推理动作模仿率达999

热心网友时间：2026-05-11

转载

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

机器人要真正融入我们的物理世界，仅仅会“执行动作”是远远不够的。近期，一项名为LaST-R1的创新研究，正致力于让机器人掌握“先理解后执行”的能力。这项由至简动力、北京大学和香港中文大学联合完成的工作，在机器人操作领域取得了突破性进展：仅需1条演示轨迹进行预热，随后通过强化学习，就在LIBERO基准测试中实现了平均99.9%的成功率；在真实机器人任务中，成功率更是从52.5%大幅跃升至93.75%，全面超越了现有技术。

这项突破的核心在于，它为具身大模型的强化学习后训练指明了一个全新方向：优化的目标不再局限于让机器人“动作更精准”，而是让它“更理解动作背后的物理原理”。当环境反馈能够持续优化其内在的推理过程时，机器人便不再仅仅是模仿演示数据，而是开始在交互中形成自己的“物理常识”。这标志着具身智能正从“模仿学习”迈向“推理决策”，是走出实验室、适应复杂现实环境的关键一步。

从“模仿轨迹”到“理解物理规律”

设想一个简单场景：给机器人下达“拉开拉链”的指令。现有的许多模型或许能立刻伸手去拉，但它是否真正理解了“拉链需要沿着特定轨迹运动”这一物理过程呢？

过去几年，像OpenVLA、π0这样的具身模型已经成功地将视觉、语言和动作指令关联起来。然而，一个根本性问题逐渐凸显：会模仿，不等于会泛化。很多时候，机器人学到的并非“拉链如何运动”的物理规律，而仅仅是几条“看起来像在拉拉链”的特定轨迹。一旦袋子的位置、拉链的角度甚至光照条件发生变化，动作就可能失效。因为变化的不是表面像素，而是物体间深层的物理关系。

大多数现有模型遵循着“观测→直接输出动作”的流程。但机器人真正缺失的，或许是行动前的那一步“物理推理”。LaST-R1的目标，正是填补这一空白，让机器人在物理环境中学会先“思考”物理动态，再“生成”相应动作。

LaST-R1：联合优化“物理推理”与“动作生成”

LaST-R1的核心思想非常清晰：不仅要优化机器人的“执行器”如何操作，更要优化它的“决策系统”如何进行推理。

具体而言，模型在生成动作之前，会先在一个连续的隐空间中进行一番“思考”，我们称之为“隐空间思维链”。这个过程会建模场景的三维结构、物体间的交互关系以及预测未来的物理动态，然后再基于这些推理结果生成动作序列。与依赖语言的思维链相比，这种隐式推理更适合机器人操作，因为接触力、摩擦力、位姿变化等物理信息往往难以用语言精确描述，却能在连续的隐空间中得到高效的表征。

更关键的一步在于其提出的LAPO（隐空间与动作联合优化）框架。传统的具身模型强化学习主要优化动作空间：哪个动作成功了，就强化哪个动作。而LAPO则让环境奖励信号同时优化两个部分：最终执行的动作本身，以及产生该动作之前的隐空间物理推理过程。这意味着，一条成功的轨迹不仅会强化“好的动作”，也会强化催生这个动作的“好的推理逻辑”；反之，失败则会引导模型调整其内部的物理世界模型。

此外，LaST-R1还引入了“自适应隐空间思维链”机制。面对简单任务时少“想”一步以提升效率，面对复杂的接触操作时则多“想”几步以提升成功率，让机器人自己学会动态分配“计算资源”。

实验结果充分验证了这一思路的有效性。在LIBERO基准测试中，LaST-R1仅用1条轨迹预热，通过在线强化学习后训练就取得了99.9%的平均成功率。在真实机器人操作任务中，仅用30条轨迹预热，便将平均成功率从52.5%大幅提升至93.75%，其数据效率甚至超过了使用100条专家轨迹训练的π0.5等先进模型。更重要的是，在面对未见过的物体、变化的背景和光照条件时，LaST-R1的性能下降幅度更小，这表明它学习到的不是对特定轨迹的机械记忆，而是更具泛化能力的空间语义理解和物理动态预测模型。

技术框架详解：推理、优化与自适应机制

整个LaST-R1框架可以概括为三个紧密衔接、层层递进的阶段。

第一阶段：先推理物理，后生成动作

给定当前的视觉观测和语言指令，LaST-R1不会直接输出动作令牌。它首先会生成一段“隐空间物理思考”的嵌入序列，用以编码物体关系、预测未来状态变化和可能的操作动态。随后，模型才基于这些经过推理的隐状态，并行解码生成具体的动作指令。这一步从根本上确保了动作的生成是建立在对物理场景的深度理解之上。

第二阶段：LAPO——联合优化推理与动作

这是LaST-R1算法的核心创新。传统方法主要优化动作输出，而LAPO将隐空间推理表征也纳入了强化学习的目标函数中，使得环境反馈的奖励能够同时塑造“如何思考”和“如何行动”。

其技术关键在于一个“隐空间层级比率替代”技巧，它确保了成功的轨迹能同时强化其对应的动作序列和产生该动作的底层推理过程。最终，通过一个经过裁剪的策略梯度目标函数，将隐空间推理和动作生成的优化统一在一个框架下。这意味着，LaST-R1的后训练过程不仅在优化机器人的末端执行效果，更在持续优化其行动前的物理推理与决策质量。

第三阶段：自适应的思考长度控制

不同复杂度的任务需要的“思考深度”不同。LaST-R1通过引入一个特殊的结束标识符令牌，让模型能够动态决定何时停止推理并开始生成动作。为了训练这个自适应机制，在整体训练目标中加入了相应的监督损失函数。这使得机器人能够根据任务的实际复杂度，自主决定是快速响应还是进行更深度的规划，实现了计算效率与任务成功率的平衡。

实验结果分析：仿真、真机与卓越的泛化能力

仿真实验：接近完美的成功率表现

在LIBERO基准的四个复杂任务套件评估中，LaST-R1在仅有一次演示热启动后，通过在线强化学习，分别达到了99.8%、100.0%、100.0%和99.8%的成功率，平均高达99.9%。相比仅优化动作空间的基础方法，LaST-R1收敛速度更快、最终性能更高，这表明隐空间推理与动作生成的联合优化机制，为处理复杂的长时序操作任务提供了更稳定、更可靠的“认知规划缓冲区”。

真机实验：实现数据效率的飞跃

在包含高精度插入、双臂协同操作等复杂物理交互的真实机器人任务上，LaST-R1仅用30条轨迹进行预热，再经过强化学习优化，就将平均成功率从52.5%显著提升至93.75%，其表现明显优于使用多达100条专家轨迹训练的当前最优模型。这证明其技术优势不仅能体现在理想的仿真环境中，更能有效迁移到充满噪声、摩擦和不确定性的真实物理世界，形成更鲁棒、更灵活的执行策略。

泛化实验：展现应对未知变化的强大稳健性

在分布外泛化能力测试中，仅优化动作的方法容易陷入性能停滞，而LaST-R1则能持续提升，这说明其隐空间推理帮助模型学习到了更本质、更具可迁移性的物理规律。

面对真实世界中从未见过的物体、变化的背景纹理和不同的光照条件，LaST-R1的性能下降幅度远小于基线模型。这强有力地表明，它并非简单地记忆和复现训练轨迹，而是构建了更为通用和鲁棒的物理推理与动作生成能力，真正理解了任务背后的物理本质。

结语：迈向真正“会思考”的具身智能新时代

LaST-R1研究的意义，远不止于那几个惊人的百分比提升。它真正的重要性在于提出了一种全新的研究范式：强化学习不应该只关注机器人的“执行层”，更应该优化驱动这执行的“认知层”——即动作背后的物理推理与决策过程。

过去，我们主要关注机器人“能否做出正确的动作”。现在，LaST-R1促使我们进一步追问：机器人“能否在行动前进行正确的物理思考与规划”？通过LAPO框架，环境奖励得以直接塑造和优化其隐空间的推理逻辑；通过自适应机制，机器人学会了为不同任务动态分配恰当的“认知资源”。这意味着，机器人开始从被动的数据复现者与模仿者，转变为能在与环境交互中逐步积累、修正和运用物理直觉的主动学习者与问题解决者。

从这个视角看，LaST-R1推动着具身大模型的强化学习，从“感知后立即行动”的反射模式，走向了“感知、思考、规划、再行动”的认知模式。当机器人学会在隐空间中为复杂操作任务进行“深思熟虑”时，它距离真正自主、灵活、安全地理解和改造我们身处的物理世界，无疑又迈出了至关重要且坚实的一步。

来源:https://www.163.com/dy/article/KSKTMB9P0511ABV6.html

上一篇： Anthropic将停用Sonnet 4.5 AI模型其最后留言引发关注

下一篇：企业AI落地最大障碍并非算力而是人才短缺四成企业深陷其中