通用世界模型问世机器人将具备自主进化与认知能力
33天后,你家或许就要迎来一位不知疲倦的硅基新成员了。
它将面对的是日复一日的家庭琐事:随处散落的衣物、孩子扔在地上的玩具、桌边摇摇欲坠的杯子,或是被猫咪“重新布置”过的客厅……这些看似永远做不完的家务,正是家庭服务机器人需要攻克的核心场景。关键在于,它能24小时在线工作,并且通过持续学习,越干越明白。
4月21日,自变量机器人在北京宣布,其搭载新一代自研具身智能基础模型WALL-B的机器人,将于5月25日正式入驻真实家庭,开启家庭服务机器人的新篇章。
这个名为WALL-B的模型,是全球首个基于世界统一模型(World Unified Model,WUM)架构的具身智能基础模型。它创新性地将视觉、听觉、语言、触觉、动作乃至物理预测,全部整合进同一个神经网络中进行从零开始的联合训练。这意味着,机器人首次有机会像人类一样,对环境、自身和任务形成一种整体性的、统一的理解。

更关键的是,WALL-B突破了此前VLA(视觉-语言-动作)模型只会模仿的“天花板”,开始具备对物理世界底层规律的认知能力,并能在真实交互中持续学习和自我进化。这标志着具身智能的基础模型,正从VLA的模块拼接架构,向原生多模态融合架构实现一次重大跨越,为人形机器人进入家庭扫清了关键障碍。
一、从WALL-A到WALL-B:机器人大脑从“模块拼装”进化到“原生统一”
近期,北京人形机器人马拉松火爆全网,机器人在硬件本体和运动控制上的进步有目共睹。但热闹背后,人形机器人在灵巧操作、任务泛化等方面,依然面临不少困境。这恰恰是机器人迟迟无法进入真实场景、替你“干活”的关键瓶颈。
目前主流的具身大模型,大多基于VLA架构。自变量早期也推出了基于此架构的第一代模型WALL-A。然而,当团队真正尝试把机器人送进家庭后,VLA架构的天花板便清晰显现。
VLA技术生态虽然成熟,但其本质是多个独立模块的串联拼接。信息就像流水线上的零件,需要逐级传递,每经过一个模块,信息就损耗一次。等传到机器人执行端时,指令可能已经“失真”或“残缺”,导致操作失误。
这很像苹果M1芯片问世前的Mac电脑:CPU、GPU、内存各自独立,数据在它们之间来回搬运,不可避免地产生延迟和损耗。
此外,VLA模型能让机器人模仿训练数据中的动作轨迹,却无法理解背后的物理规律。机器人只会“死记硬背”,不懂“底层逻辑”,一旦遇到训练集之外的状况,就容易“露怯”。正如自变量机器人CTO王昊所总结的:“模仿,就是VLA的天花板。”
例如,当看到一个盘子悬在桌边时,基于VLA的机器人无法理解重力作用会导致其掉落,自然也就想不到需要把它往里推一推,防止摔碎。

从WALL-A到WALL-B,自变量实现的并非一次普通迭代,而是一场从VLA到WUM的架构革命。其核心,是将机器人的“大脑”从“模块拼装”改造为“原生统一”。
WALL-B就像苹果M1芯片统一了内存架构那样,将视觉、语言、动作、物理预测等所有能力,置于同一个网络中从零开始联合训练。它彻底打破了模块间的壁垒,让各个模块从过去的“分头行动”走向“协同运转”,实现了信息的高效无损处理。
过去,机器人处理任务像是“传话游戏”;而现在,模块边界和数据搬运的损耗被消除,它能够对环境、身体、任务进行整体性思考。这种能力,就像我们看到杯子快掉下桌子时,手往往比脑子更快地伸出去接住——因为在那个瞬间,人类对环境、物体状态、身体动作和潜在后果,拥有一种瞬间完成的、整体性的理解。这正是WALL-B赋予机器人的核心能力。
二、基于世界统一模型:WALL-B让机器人拥有“世界观”并能自我进化
基于世界统一模型(WUM)架构,WALL-B实现了三项区别于行业现有模型的核心技术特征,为家庭服务机器人提供了真正的“智慧大脑”。
1. 原生多模态
WALL-B从训练的第一天起,就对视觉、听觉、语言、触觉、动作等多模态数据进行同步标注与联合训练。这使得机器人能像人一样进行多感官协同决策。
于是,机器人看到杯子快掉下去的同时,手就已经伸了出去,并同步调整力度将其稳妥放好。模型不再需要像流水线一样,等待不同模块逐级“翻译”和“传话”才能进行下一步,极大地提升了反应速度和操作精度。

这种架构让模型首次拥有了“原生本体感”。机器人能感知自身的尺寸与空间位置,判断自己在环境中的状态。遇到狭窄过道、半开的门或高处的物品时,它能清楚判断能否通过、能否够到、够到后会发生什么。相比之下,许多扫地机器人甚至不具备这种基础的空间意识。
WALL-B还赋予了机器人“部件级理解”能力。看到一个杯子时,它能像人一样感知把手朝向、材质、图案、杯内是否有水,以及如何握持更合适。在一个家庭认识了一个杯子后,即便换到另一个环境、面对外形完全不同的杯子,它依然能识别其功能,实现真正的零样本泛化。
2. 物理世界的“世界观”
WALL-B让机器人不止“看见”世界,更能“读懂”世界。它能感知并预测重力、惯性、摩擦力、速度等基本物理规律,这是实现安全、可靠家庭服务的基础。
当机器人端起一个装满水的杯子时,它能感知杯中有水,重量会因液体晃动而变化;力度太小可能打滑,太大可能捏翻杯子,移动太快则会因惯性把水洒出。因此,它会动态调整手部力度和移动速度,确保平稳。
真正支撑零样本泛化能力的,并非模型记住了多少具体任务,而是它开始理解这个世界的基本运行规律。今天能在一个家庭里判断如何端稳水杯,明天就能在陌生环境里,处理材质、重量、形状各异的容器。机器人掌握的,不再是一个个孤立的动作模板,而是一套可迁移到无数场景的底层常识,这是迈向通用人工智能(AGI)的关键一步。
3. 与世界交互并自我进化
目前,基于VLA模型的机器人在任务失败后,通常直接停止并报错,无法从失败中学习。而WALL-B的行为模式截然不同:它在失败后会调整策略再次尝试;如果成功,则将这次成功的经验直接更新到模型参数中。这是WUM架构区别于所有现有VLA模型的最根本特征,也是实现持续学习的关键。
机器人的学习方式,从“等人喂数据、等工程师重训”,转变为在真实世界“边做边学”,越来越聪明。王昊比喻,这就像人类学习使用筷子,会在实践中不断调整角度和力度,最终将技能内化。

过去,我们看到许多会后空翻、跳街舞、写毛笔字的机器人表现惊艳,但其本质仍是预设轨迹的“命令行机器人”,每一个动作都经过精密编程或遥控操作。
家庭场景却无人能提前教完所有情况、预设所有轨迹。机器人只有理解更底层的物理规律和空间关系,并能在持续实践中不断进化,才可能真正落地于这个千变万化的场景。WALL-B的出现,让机器人具备了这种在复杂环境中学习和成长的能力。
三、从“糖水数据”到“牛奶数据”:用真实家庭场景转动数据飞轮
高质量真实数据的缺失,正是制约具身智能落地的核心一环。王昊认为,具身智能行业最大的秘密不是算法,不是架构,也不是硬件,而是数据。
规模化、流水线式的数据采集工厂,效率虽高,但依赖于预设场景和标准化任务,无法覆盖真实世界中那些非标准、非重复、琐碎的操作场景。
王昊将这类数据比喻为“糖水数据”——就像糖水除了甜味之外营养有限,这类数据虽然干净、可控、量大,但与真实家庭的复杂环境之间隔着一道鸿沟。基于此类数据训练的模型,在真实环境中往往迅速失效。
原因在于,真实家庭并非标准化实验室,而是由杂乱物品、多变光线、穿梭的宠物、孩子的打断和临时任务构成的“生活现场”。
与之相对,王昊提出了“牛奶数据”的概念。牛奶能提供实打实的营养,同样,在真实家庭环境中采集的、嘈杂、多变、充满随机性的数据,训练价值更高。这也正是自变量选择的数据道路,致力于打造最懂家庭的机器人。
为了获取这类数据,自变量团队进入了数百个志愿者的真实家庭进行模型训练。每一户的布局、灯光和混乱程度都独一无二,为模型提供了最丰富的学习素材。
真实家庭的重要性,不仅在于环境更复杂,更在于它让“任务规划”本身变得不可预设。王昊提到,机器人在进入任何一个家庭之前,很难提前知道具体要做什么,无法进行事无巨细的规划。这种不确定性,恰恰是训练机器人自主决策和适应能力的绝佳环境。

这种耗时耗力的“笨功夫”,恰恰构成了自变量的关键壁垒。机器人只有在这种千差万别的环境中训练,才可能建立起真正的泛化能力,适应不同家庭的个性化需求。
因此,自变量的策略是:用实验室数据打底,靠真实场景提质。前者让模型拥有基本能力,后者让模型学会在不确定、不可预测的环境中“生存”和“工作”。
更重要的是,WALL-B能让机器人在与真实世界的持续交互中,不断产生新数据、回流新经验,推动模型完成自我进化,从而形成“进家庭—获取数据—模型进化—进更多家庭”的正向数据飞轮。这是实现机器人持续智能化的核心引擎。
一旦这个飞轮真正转动起来,数据就将成为模型持续成长的燃料。像自变量这样更早进入真实场景、积累更多高质量交互数据的企业,其领先优势有望不断扩大,建立起坚实的数据护城河。
四、机器人1个月后入驻家庭,在工作中“越变越聪明”
此前,自变量已与58同城合作,将搭载WALL-AS模型的机器人送入真实家庭,与保洁阿姨协同作业,完成了全球首次机器人进入家庭的实际作业,验证了技术路线的可行性。
这一次,王潜明确宣布,将在5月25日,让搭载更先进的WALL-B模型的机器人进入真实家庭“干活”,标志着家庭服务机器人从实验阶段迈向常态化服务阶段。
对于机器人进家可能引发的隐私担忧,王潜提到,自变量将采用视觉脱敏、透明授权、用途限定等方案来保障用户隐私安全,让用户用得放心。

机器人进入家庭的想象空间,显然不止于售卖一台硬件。当机器人开始长期驻留家庭,它就不再只是一个消费电子产品,而更像一个可持续更新的服务系统。企业可以通过服务订阅、功能更新和模型升级,不断提升其能力,为用户带来持续价值。
对行业而言,这门生意将不再是一次性的硬件销售,而是凭借持续服务和升级,与用户建立长期付费关系,开创智能家居服务的新商业模式。
王潜也坦言,当前模型仍处于“实习生”阶段,会犯错,需要远程协助,有时可能把拖鞋放进厨房,或擦桌子擦到一半停下来“思考”。但其优势在于能够实现24小时不间断工作,并且每工作一天,都会因为新数据的产生而变得更“聪明”,其成长速度远超人类。
结语:家庭这道终极考题,正成为机器人真正长大的地方
家庭,是具身智能最复杂、最琐碎、最难以标准化的场景,也因此成为检验机器人是否真正具备通用能力的终极考场。它要求机器人不仅会动,更要会思考、会适应、会学习。
今天的机器人或许还走得慢、做得笨、时常犯错,但真正重要的变化已经发生:它已经开始走进家庭,在这个充满随机性与不确定性的真实世界里,一边干活,一边学习,持续进化。这不仅是技术的进步,更是人机共融生活方式的起点。
对于具身智能而言,这不仅仅是一次场景落地,更像是一场真正意义上的启程。机器人已经在最复杂的地方,开始了自己的成长。未来,随着WALL-B这样的模型不断进化,一个由智能机器人协助打理家务的时代,正加速向我们走来。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
通用世界模型问世机器人将具备自主进化与认知能力
33天后,你家或许就要迎来一位不知疲倦的硅基新成员了。 它将面对的是日复一日的家庭琐事:随处散落的衣物、孩子扔在地上的玩具、桌边摇摇欲坠的杯子,或是被猫咪“重新布置”过的客厅……这些看似永远做不完的家务,正是家庭服务机器人需要攻克的核心场景。关键在于,它能24小时在线工作,并且通过持续学习,越干越明
腾讯混元大模型正式上线姚顺雨团队主导研发
腾讯混元的新一代模型,Hy3 preview,刚刚揭开面纱。 这不仅是混元团队在架构与基础设施层面重新出发后的首个版本,更因其“实用性”的明确标签而备受关注。首批发布的模型尺寸相对较小,目标直指落地应用。同样引人注目的是,这也是AI专家姚顺雨归国加盟腾讯后交出的首份重要答卷,其背后贯彻的正是他所倡导
月之暗面Kimi浏览器插件安装与使用指南
月之暗面推出KimiWebBridge浏览器扩展,使本地AI助手能直接操作已登录的浏览器。该工具复用用户会话状态,可自动执行网页导航、表单填写及数据抓取等任务,所有处理均在本地完成以保障隐私。它支持与主流AI代理框架集成,并能将常用流程编译为命令行工具以提升效率。
OpenClaw养虾守护进程安装与使用指南
要让你的OpenClaw智能体实现7x24小时稳定在线与可靠运行,后台守护进程是至关重要的核心组件。它如同一位全天候值守的智能管家,不仅默默维持着Agent核心服务的生命线,还负责管理所有外部渠道的连接会话,并确保各类定时任务能够被精准、准时地调度与执行。 所有涉及守护进程生命周期管理的操作,都通过
PowerShell执行openclaw命令报错解决方法
许多开发者在Windows系统中配置开发工具时,都会遇到一个典型的权限问题:在PowerShell终端中输入openclaw指令后,系统提示无法执行相关脚本。 无法加载文件 C: Users xxx AppData Roaming npm openclaw ps1,因为在此系统上禁止运行脚本。 这一
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

