数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

热点详情

卧安OneModel 1.7评测一条隐式通路如何从看懂到做对

AI热点日报时间：2026-05-21

热点解读

卧安机器人OneModel1 7模型通过隐式传导通路PredictivePolicyLatent，有效连接了环境理解与动作执行。在LIBERO测试中平均成功率高达99%，在日常操作、高精度任务及动态对打中表现优异。其结合强化学习闭环与成功记忆机制，使系统能持续自适应进化，提升了复杂任务中的泛化与适应能力。

进入2026年，世界模型（World Model）已成为推动具身智能与机器人技术发展的核心引擎，吸引了英伟达等科技巨头的深度布局。这类模型的核心使命，是让机器从海量数据中学习物理世界的运行规律，并掌握可执行的复杂动作技能。然而，一个根本性挑战始终存在：即便模型“理解”了环境状态，其“动作策略”却常常无法精准执行，这中间的“知行断层”该如何弥合？

近期，卧安机器人发布的OneModel 1.7 FrontoStria-RL，为这一难题提供了创新性的系统级解决方案。该模型在权威的LIBERO基准测试中取得了平均99%的成功率，超越了包括π0.5、GR00T-N1.5、OpenVLA-OFT在内的主流开源模型。更引人注目的是其真机表现：日常家居操作成功率高达99%，高精度任务达97%，甚至在真人对打乒乓球的极限动态场景中，接球成功率也达到了91.2%。这组卓越数据的背后，关键并非参数量的简单堆叠，而是一条名为“Predictive Policy Latent”的隐式传导通路，以及一套使其能持续自我进化的强化学习闭环机制。

图 1：标准 LIBERO 平均成功率对比。One Model 1.7 以 99% 领先于 π0.5、GR00T-N1.5、OpenVLA-OFT 等主流公开模型。

一、家庭机器人为何“看懂了却做不对”？理解与执行的鸿沟

设想一个典型场景：昨天机器人还能在你家厨房顺利洗碗并放入橱柜。今天，你仅仅将碗架挪到右侧，或改变了柜门的开启角度——对人类而言这微不足道，但对机器人来说，这可能就变成了一个“从未见过”的全新挑战。

这并非特例。家庭环境，恰恰是具身智能最具价值也最难攻克的战场。世界上没有完全相同的两个厨房，物品摆放、光照条件、户型结构千差万别。机器人不仅需要完成叠衣、端碗、收纳等精细操作，更要在物品陌生、环境动态变化的情况下，准确解读人类指令并做出合理行动。至于拔插试管、倾倒颗粒物等容错率极低的高精度任务，或是对实时感知与高速响应要求极高的动态交互（如打乒乓球），挑战则更为严峻。

这一困境源于当前两条主流技术路线的固有瓶颈：

VLA（视觉-语言-动作）模型路线直接端到端地将视觉与指令映射为动作，在数据覆盖充分的场景下效率高。但其泛化能力弱，一旦物体位置、观察视角或光照发生变化，策略极易失效，且难以处理多阶段的复杂长程任务。

世界模型（World Model）路线旨在让机器理解环境状态与任务演化的内在规律，理论上泛化潜力更强。但其落地面临核心难题：模型“看懂”了世界，并不等于“做对”了动作。若用预测的未来图像或显式坐标来衔接动作模块，会引入生成误差、信息冗余与推理延迟；若缺乏高效传导机制，“认知”与“执行”之间便存在难以逾越的断层。

OneModel 1.7的核心突破，正是为了弥合这道关键的“知行断层”。

二、Predictive Policy Latent：连接认知与执行的隐式神经通路

OneModel 1.7 FrontoStria-RL采用了卧安自研的RL-Latent World Action Model架构。其完整信息流可概括为：指令、观测与技能输入，经世界模型处理，再通过核心的“Predictive Policy Latent”通路，传递给任务理解专家与动作执行专家模块，最终驱动机器人行动，并形成融合强化学习、成功记忆与人在环反馈的进化闭环。

图 2：One Model 1.7 FrontoStria-RL 完整架构。 Predictive Policy Latent 作为核心传导机制，连接 World Model、Understand Expert 与 Action Expert。

架构包含三大核心模块：负责跨场景泛化的World Model、负责任务理解与技能调度的Understand Expert，以及负责精准执行的Action Expert。而让这三者真正协同工作的关键，是中间的Predictive Policy Latent通路。

“FrontoStria”之名源于神经科学的“额纹状体通路”——连接大脑前额叶（负责决策规划）与纹状体（负责动作执行）的关键神经回路。OneModel中的Predictive Policy Latent正扮演了类似的“神经通路”角色，它将世界模型对场景的高层认知理解，以一种紧凑、隐式的方式，无损且高效地传导至动作生成模块。

与传统方案相比，其创新在于：

传统方案局限：通常生成预测的未来图像或输出目标坐标，存在信息冗余、生成误差（幻觉）及模块耦合度低的问题。
隐式通路优势：采用面向动作策略的隐式表征，替代显式的图像或坐标信号。
- 训练阶段：模型借助“看到”动作执行后的未来结果，学习并内化对任务物理后果的理解，形成隐式物理推理能力。
- 部署阶段：模型仅凭当前观测，即可输出能等效调制动作策略的隐式信号，无需任何未来信息。

简言之，这条通路在训练时利用“未来”学会何为好的决策，在部署时仅凭“现在”就能做出同等优质的判断。从而实现更高信息密度、更快推理速度，并彻底规避生成式模型的噪声干扰。这正是OneModel 1.7的核心设计哲学：不是简单拼接VLA与世界模型，而是通过隐式通路实现从“理解”到“执行”的无缝高效传导。

三、RL闭环与Retrieve-then-Steer：让智能体在部署中持续进化

仅打通通路还不够。面对真实世界中无穷尽的长尾场景（如物品意外位移、柔性物体形变、用户临时干预等），固定参数的模型其零样本泛化能力总有边界。

因此，OneModel 1.7的第二个核心设计是让这条通路具备“持续进化”能力，这也正是其代号中“RL”的深意。

1. 强化学习（RL）闭环：在明确的奖励信号、安全约束及人在环监督下，模型通过真实任务反馈进行在线策略优化。这使得它能突破模仿学习“仅能复现示范”的天花板，自主探索出更鲁棒、更高效的动作策略。

2. Retrieve-then-Steer：基于成功经验的记忆增强：其核心洞察在于，真实环境中的机器人通常在相对稳定的场景中重复工作。昨天的成功经验，对今天解决类似问题极具参考价值。成功的执行轨迹本身就是“经过环境验证的可靠行为模式”。

该机制具体运作如下：

存储：在部署中，将经过进度校准的成功“观测-动作”片段存入长期记忆库。
检索：推理时，从记忆库中实时检索与当前状态最相关的成功动作片段。
引导：通过轨迹级一致性过滤不匹配候选，并将聚合后的精英动作先验，以置信度自适应的方式注入动作采样器，从而智能引导当前策略。

这意味着OneModel在真实家庭中能够“越用越聪明”。机器人每日积累的成功经验，会持续提升后续任务的成功率，且这个过程是轻量级、非参数的，无需重新训练整个大模型。

图 3：SimplerEnv 平均成功率对比。 Retrieve-then-Steer 将 CogACT 的平均成功率从 75.8% 提升至 79.5%，提升 3.7 个百分点。

RL闭环与Retrieve-then-Steer相辅相成：前者致力于突破能力上限，后者专注于快速适应部署环境。两者共同作用，使得Predictive Policy Latent这条通路从“静态连接”升级为“动态增强”。

四、支撑核心通路的两个关键模块

为确保Predictive Policy Latent高效运行，还需要两个关键模块在其“中段”和“末端”解决特定问题。

Understand Expert + Skill：通路中段的任务规划师

真实任务往往具有清晰的结构化阶段。例如，叠衣服需经历展平、对折、整理；操作洗碗机需识别碗碟、选择位置、确认关门。这些结构化规程，是连接高层意图与底层动作的“中间层”。

Understand Expert正是为此而生。它接收来自Predictive Policy Latent的调制信号，对任务进行结构化分解——识别当前阶段、明确子目标依赖关系、并调度相应的技能序列。这使得模型能灵活复用技能应对新任务组合，并在执行长流程任务时不迷失最终目标。

MCF-Proto：通路末端的动作稳定器

当前许多VLA模型的骨干网络虽快速演进，但其动作输出头却高度同质化——通常在固定世界坐标系下直接预测动作命令。这种方式对相机视角变化和机器人初始位姿偏差异常敏感。

研究发现，无需显式方向标签，模型学习到的局部坐标系会自发形成稳定几何结构，其坐标轴与示教数据中机械臂末端的运动方向高度一致。同时，动作表征变得更紧凑，由更少的主方向捕获变化，并由共享的原型规则化组织。

在LIBERO-plus的七类扰动测试中，MCF-Proto在六类中取得最优。尤其在两类关键几何扰动上：“相机视角变化”领先最强基线3.3个百分点；“机器人初始位姿偏差”领先优势高达15.7个百分点。这两类扰动正是家庭环境中最常见、最影响动作稳定性的因素。

图 4：LIBERO-plus 七类扰动鲁棒性对比。 MCF-Proto 在 Camera 和 Robot 两类几何扰动下优势最为显著。

图 5：One Model 1.7 FrontoStria-RL 四大核心技术模块总览。

五、OneModel 1.7与主流具身智能模型架构对比

为清晰定位OneModel 1.7的技术独特性，可将其与主流模型进行架构对比。

对比凸显了OneModel 1.7的两大独特之处：

唯一的隐式传导通道：在“规划/中间表征”层面，π0.5和GR00T N1.7无显式规划；π0.7通过未来/子目标图像传递信息；DreamZero生成未来视频。OneModel 1.7则独辟蹊径，通过Predictive Policy Latent将世界理解以隐式表征直接传导给动作策略，不生成任何中间图像/视频，实现了低冗余、高效率的“认知-执行”连通。
唯一的强化学习闭环：在“强化学习闭环”层面，π0.5、GR00T N1.7、π0.7和DreamZero均不依赖部署后的RL闭环。OneModel 1.7则将隐式世界动作模型与强化学习深度融合，使机器人能在日常使用中积累经验，并通过Retrieve-then-Steer机制，在不更新模型参数的前提下持续提升性能，实现终身学习。

六、真机性能验证：从家居操作到动态竞技

基准测试之外，OneModel 1.7在真实机器人平台上成功覆盖了三个难度梯度的任务，展现了卓越的泛化与执行能力。

日常家居操作：平均成功率99%
洗衣、叠衣、操作洗碗机、传送带取物等任务，涉及柔性物体、多阶段流程与多样环境，要求模型在泛化理解与稳定执行间取得精妙平衡。

高精度操作：平均成功率97%
拔插试管、叠纸杯、倒咖啡豆等任务容错率极低，对末端定位精度、姿态与力控稳定性要求极高。MCF-Proto基于局部运动结构组织动作原型的设计，在此类任务中优势显著。

极限动态交互：乒乓球接球成功率91.2%
真人对打乒乓球是“高动态+高精度”的终极测试，要求毫秒级实时感知、轨迹预测与高速动作生成。在此，世界模型快速预测球路，动作专家在极短窗口内生成精准击球动作，RL闭环则通过大量对打持续优化策略。

图 6：日常操作与高精度任务真机验证成功率。

图 7：真人对打乒乓球动作阶段成功率。接球成功率达到 91.2%。

总结与展望

OneModel 1.7 FrontoStria-RL系统性地回应了具身智能从实验室迈向真实部署的核心挑战：世界模型的认知如何有效驱动动作执行？复杂任务如何被结构化分解？动作策略如何抵抗环境扰动？智能体如何在部署后持续进化？

它给出的答案是一个完整的技术体系：

以Predictive Policy Latent构建隐式通路，实现从理解到执行的无损传导。
以Understand Expert + Skill体系为长程任务提供结构化规划能力。
以MCF-Proto确保动作表达对视角、位姿等几何扰动的高度鲁棒性。
以RL闭环与Retrieve-then-Steer机制，使系统具备持续自进化能力。

家庭与服务机器人的真正落地，依赖的并非更大的模型参数或偶然成功的演示，而是一套能同时解决“泛化理解、精准执行、持续自适应”三重挑战的完整系统。OneModel 1.7 FrontoStria-RL标志着卧安机器人在此方向上迈出了关键一步。随着其在真实家庭场景中的持续迭代与优化，机器人有望从当前的“能看懂、能行动”，稳步迈向“能适应、能进化、能持久可靠工作”的下一代智能体新阶段。

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：卧安OneModel 1.7评测 一条隐式通路如何从看懂到做对要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://www.163.com/dy/article/KTFKM2HK0511AQHO.html

Model

上一篇：小米Mimo大模型本地部署指南：开源权重私有化教程

下一篇：Vidu制作种子生长延时效果完整教程

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

卧安OneModel 1.7评测 一条隐式通路如何从看懂到做对