当前位置: 首页
业界动态
首个面向家庭的机器人动作模型亮相具身智能新范式

首个面向家庭的机器人动作模型亮相具身智能新范式

热心网友 时间:2026-05-23
转载

让机器人收拾餐桌,结果它一把抓起盘子——力道过大,碎了;接着还想把碎瓷片放进洗碗机,完全意识不到危险。

这听起来像段子,却是当前家庭机器人面临的真实困境。它们要么是只会执行固定程序的“机械呆子”,要么就成了决策完全不可知的“黑盒赌徒”。前者不够聪明,后者则根本谈不上可靠。

家庭环境恰恰是人类最复杂、最动态、也最需要安全的空间。一个能与人共处的机器人,必须同时具备两种看似矛盾的能力:高层认知,以理解模糊指令、规划任务并应对意外;以及物理直觉,以实现精确控制、实时适应环境,并避免损坏物品或伤人。任何只解决其中一方面的模型,都难以成为合格的“家人”。

行业里,世界模型是常见路线,旨在让机器人在行动前预测未来。无论是试图直接从视觉映射到动作的视频-动作世界模型(如UAG架构),还是将感知直接映射控制的传统VLA,亦或是增加了“先想象再执行”环节的普通WAM,它们都有一个共同的局限:只把想象当作在线决策的工具,却没有把想象过程本身,转化为可训练、可积累的数据资产。

未来不远机器人提出的Self-Evolving WAM(自进化世界动作模型),其核心判断正在于此:仅仅把WAM当作在线控制器,是低估了它的价值。决定长期领先优势的,并非某一次动作选得更准,而在于模型每一次“思考”时产生的候选路径、评估与决策边界,能否被系统地保存、校准、挖掘,并反过来训练下一代模型。

这才是Self-Evolving WAM的根本差异所在。

我们可以这样理解其工作流:传统VLA是“观察→动作”;普通WAM是“观察→想象未来→动作”;而Self-Evolving WAM则是“观察→想象K种未来→执行动作→现实校准→存储推演训练”。

关键在于,机器人每一次执行,收获的不仅是一个成败结果,更沉淀下一组宝贵的训练资产:它当时设想了哪些选项、为何选择其中一条、其他候选为何被放弃、现实结果又如何校准了这些判断。

这里的“自进化”并非让模型凭空生成无限数据,也不是用幻想数据污染训练集。未来不远机器人的设计非常克制:系统将在线推理时自然生成的K条候选轨迹全部存储下来;用真实执行结果校准被选中的那条;再由一个“进化裁判”机制,判断这些已存储的轨迹中,哪些值得、以何种权重、进入哪个训练缓冲区。

这套架构如同为机器人配备了一个“第二大脑”,但它绝非不可解释的黑盒。其内部被清晰地拆分为四个层级,每一层都有明确的输入、输出和责任边界。

1. 现实到潜空间的接口:收束唯一输入包

第一层并非简单拼接摄像头、语言和关节状态。它的核心任务,是将这些异构信息转换成WAM能够统一处理的“条件数据包”。视觉编码器处理多视角视频、深度或短时历史帧,输出世界潜在状态;文本编码器解析用户目标与约束,输出目标标记;本体感知编码器接收关节角、末端位姿、夹爪状态及力反馈,输出身体状态标记;动作分词器则将历史连续动作转换为动作标记,也能在后续将动作标记解码回可执行的动作块。

如此一来,第一层到第二层的交接就非常清晰:第二层的WAM面对的,不再是杂乱的原始传感器流,而是同一个潜在空间里的世界状态、目标任务、身体姿态和动作历史。例如,当机器人要将杯子放进水槽时,这个“条件数据包”里就同时包含了杯子和水槽的相对位置、语言指令“放进水槽”、夹爪的当前姿态,以及手臂刚刚的接近方向。WAM后续的所有想象,都围绕这个统一的输入包展开。

2. 在线想象引擎:生成并存储K条候选

第二层是在线想象引擎,其核心可以是共享的WAM Transformer或扩散Transformer。它基于“条件数据包”,生成K条候选轨迹。每条轨迹都不是一个孤立的动作,而是一组“未来-动作”组合:包括预测的未来潜在状态或视频、接下来一小段可执行的动作块、轨迹嵌入,以及由多个评估头给出的价值、风险、不确定性和失败原因预估。

这些评估头分工明确:视频未来头负责预测物体的移动、液体的晃动、接触关系的变化;动作头负责生成可执行的动作片段;价值/风险/不确定性头则分别估计成功率、风险水平和置信度;失败原因头会提前指出潜在的失败点,例如错误的接触点、物体滑动、碰撞、用力过度、遮挡或时机不匹配。

以抓取杯子为例。K条候选轨迹中,选项A可能是从杯口上方抓取,模型预测杯子会倾斜,价值评分0.42,失败原因为“错误接触点”;选项B是从杯身中部抓取,模型预测能稳定拿起,价值评分0.86;选项C是先把杯子推到桌边再抓,模型评估有掉落风险,风险值很高;选项D则是绕开旁边的玻璃杯后从侧面抓取,路径更长但更稳妥。在线的动作选择器通常会执行B,但A、C、D这三条未被选择的轨迹并不会被丢弃,它们将与B一同被写入执行记录。

3. 现实对齐:用真实世界校准模型想象

第三层是现实对齐。机器人执行选项B后,真实世界会反馈实际结果。系统会将B轨迹中“想象的未来”与“实际的未来”进行比对校准:模型以为杯子会稳定,但现实显示杯子在第6个动作步出现了轻微滑动;模型给出的风险值是0.12,现实表明风险被低估了;模型没有预测到物体滑动,而视频、力反馈和夹爪传感器都证实滑动发生了。

现实比较器的输出不是简单的“成功”或“失败”标签,而是一组对齐信号,包括预测误差、接触误差、时机误差、价值高估、风险低估、临界失误分数、可恢复性下降等。这些信号精确地告诉系统:模型哪里想错了、错得有多严重、是否属于侥幸过关的“临界失误”、是不是高置信度的误判、以及是否还有补救空间。

这里有一个必须厘清的边界:真实世界只直接验证了被执行的那条轨迹。A、C、D没有真实执行,因此不能作为强监督的“真值”标签。但它们依然具有训练价值,因为它们记录了模型在特定状态、目标和版本下所做的候选决策边界。后续的“进化裁判”会以不同的信任等级来处理它们,而非简单地全盘接收。

4. 自主进化引擎:挖掘已存储的K条轨迹

第四层是自主进化引擎。在其最终收敛的版本中,它只保留三个核心组件:失败知识提取器、基于存储K条轨迹的进化裁判、以及训练袋里。第一阶段并未引入额外的数据生成模块,核心目标是确保自进化闭环本身是可信、可控、可验证的。

失败知识提取器的输入,包括被执行轨迹、对齐信号,以及第二层失败原因头当时的预测。其输出是一条结构化的失败或临界失误知识记录。在上述杯子例子中,它会记录:这并非完全失败,而是一次临界成功;主要风险是物体滑动;发生在第6个动作步;区域是杯身侧壁;模型错误在于低估了风险;最小修正方案可能是增大抓握力、将接触点略微下移、或降低移动速度。

再看洗碗机场景。模型执行将碗放入架子的动作,现实中碗边被卡住。失败知识提取器会将其解析为“错误插入角度+碰撞”,发生区域在碗沿与架子插槽之间,模型高估了动作价值,最小修正是先将碗旋转8到12度再下放。如此一来,失败不再仅仅是难以利用的视频日志,而是变成了可检索、可统计、可训练的结构化知识。

先发优势:每一步都沉淀资产

传统的视频-动作世界模型(如UAG)试图用一个端到端网络完成从视觉到动作的映射。其优势是演示流畅,但劣势在于“黑盒”——你无从知晓它为何成功,更不明白为何失败。一旦犯错,唯一的办法就是喂入更多数据,祈祷模型自己能学会修正。

而Self-Evolving WAM从设计之初,就将可解释性与可积累性嵌入了架构。每一次真实执行,无论成败,都会产出四类资产:一条被现实验证的轨迹(实际结果);K-1条虽未执行但富含信息的候选轨迹(包括失败预测和备选路径);一组对齐误差信号(指明模型错在何处);以及结构化的失败知识(错误类型、发生位置、最小修正方案)。

这意味着,未来不远机器人的先发优势并非源于“提前采集了三年数据”,而是基于“每台机器人每天产生的训练资产质量更高、信息密度更大”。后来者即使获得同样的演示数据,也无法获得同等质量的“决策边界”数据。

后发优势:架构可吸收所有未来技术进步

或许有人会问:如果未来出现了更强的视觉模型、语言模型或扩散生成器,Self-Evolving WAM是否会被碘伏?

答案恰恰相反。这套架构的第四层(自主进化)天然具备模块化吸收能力:“条件数据包”可以接入任何新一代的视觉编码器;“在线想象引擎”可以替换为更先进的Transformer或扩散模型;“进化裁判”自身的训练规则也可以持续优化。

换言之,Self-Evolving WAM并非一条封闭的技术路线,而是一个能够不断自我迭代的元框架。任何底层单点技术的进步,都可以被它吸收、校准,并用于提升物理直觉。后来者即使拥有更强的单点模型,也难以绕过“将想象过程转化为可训练资产”这一核心设计——而这正是未来不远机器人已经完整实现的系统级能力。

如果用一句话概括这套架构:它并非让机器人凭空做梦来训练自己,而是将WAM在线推理时已经产生的K条候选未来全部存储下来,用真实结果进行校准,再由“进化裁判”判断哪些值得用于训练。于是,每一次真实执行收获的不仅是一个动作结果,更是一组关于模型决策边界的训练资产。

这条路线的终极目标,不是把家庭机器人变成一个更大的黑盒,而是赋予它一套可以被检查、被纠正、并持续进化的物理直觉。

在众多机器人“大脑”技术路线中,视频-动作直连世界模型追求的是“惊艳的演示”,单一VLA追求的是“端到端的简洁”,而未来不远机器人的Self-Evolving WAM,追求的是一套越用越强、自我校准、可解释、可进化的物理直觉系统。

其范式价值体现在:它不依赖幻想数据,仅以真实执行产生的候选轨迹作为训练燃料;它将每一次失败转化为结构化知识,而非丢弃的日志;它具备模块化吸收未来技术进步的开放性;它在工程上分阶段可验证,商业化路径清晰。

对于家庭机器人这个万亿级市场,最终能走入千家万户的,或许不是演示最流畅的“天才”,而是犯错后能自我修正、越用越稳的“家人”。Self-Evolving WAM所提供的,正是这种能力。它很可能成为家庭机器人大脑的最优解之一,为行业提供全新的发展范式。凭借这一路线的先发优势与持续吸收后发技术的能力,未来不远机器人有望在未来的竞争中保持长期领先,并真正推动家庭通用机器人的普及。

当其他模型仍在比拼一次性的演示成功率时,Self-Evolving WAM已经在让机器人学会“从每一次物理交互中成长”。这,或许才是家庭机器人走向成熟形态的正确方向。

来源:https://www.ithome.com/0/954/098.htm

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
2026年办公室除甲醛净化器实测推荐避免无耗材选购误区

2026年办公室除甲醛净化器实测推荐避免无耗材选购误区

办公室甲醛释放周期长,需选用专业净化设备。实测表明,应重视催化分解技术、高CADR CCM值及耐用耗材。根据空间大小选择:小型办公室注重性价比,开放区域需平衡净化力与静音,会议室则要求快速净化与移动便利。选购时应避开噪音大、参数虚标及耗材昂贵的产品,关注催化分解、高CADR、零臭氧及长寿命。

时间:2026-05-23 22:48
彼邑AI受企业青睐:AI营销推荐时代的新选择

彼邑AI受企业青睐:AI营销推荐时代的新选择

当前营销正从传统搜索转向AI推荐时代。用户习惯直接向AI提问,使得品牌能否被AI识别并推荐成为关键。GEO和AEO成为行业热点,强调品牌语义清晰度与内容可信度。彼邑AI等平台专注于帮助品牌融入AI推荐逻辑,通过技术体系实现跨平台内容适配与效果量化,推动营销从流量竞争转向“被AI推荐”的能力竞争。

时间:2026-05-23 22:48
诺米五金与京东合作如何打造中高端全屋定制五金解决方案

诺米五金与京东合作如何打造中高端全屋定制五金解决方案

诺米五金与京东全屋定制达成战略合作,聚焦中高端全屋定制五金赛道。双方通过产品、渠道、数据与服务深度融合,致力于解决行业“五金难配、体验割裂”的痛点。诺米凭借全场景收纳体系、终身质保及智能制造实力,结合京东平台与流量优势,推动家居行业从功能满足迈向价值共生,为消费者提。

时间:2026-05-23 22:48
比亚迪智能化战略发布会5月28日举行 重磅技术即将揭晓

比亚迪智能化战略发布会5月28日举行 重磅技术即将揭晓

比亚迪将于5月28日举办智能化战略发布会,标志着其技术战略进入新阶段。此前3月,公司发布了第二代刀片电池与闪充技术,实现了5分钟快充与低温高效补能,并提升了电池寿命与安全标准,推出电芯终身保修。此次智能化布局旨在构建更全面的技术体系。

时间:2026-05-23 22:47
提升面试邀请率的实用指南从简历优化到平台选择全解析

提升面试邀请率的实用指南从简历优化到平台选择全解析

提升面试邀请率需系统优化简历、平台与策略。简历应精准匹配岗位关键词,以专业格式和数据呈现成果。选择审核严格、岗位真实的招聘平台至关重要,可借助其AI优化、智能推荐等功能提升匹配度。理解HR筛选逻辑,把握投递时机,能显著增加获得面试的机会。

时间:2026-05-23 22:47
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程