通用世界模型问世机器人将具备自主进化与认知能力

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

通用世界模型问世机器人将具备自主进化与认知能力

热心网友时间：2026-05-18

转载

33天后，你家或许就要迎来一位不知疲倦的硅基新成员了。

它将面对的是日复一日的家庭琐事：随处散落的衣物、孩子扔在地上的玩具、桌边摇摇欲坠的杯子，或是被猫咪“重新布置”过的客厅……这些看似永远做不完的家务，正是家庭服务机器人需要攻克的核心场景。关键在于，它能24小时在线工作，并且通过持续学习，越干越明白。

4月21日，自变量机器人在北京宣布，其搭载新一代自研具身智能基础模型WALL-B的机器人，将于5月25日正式入驻真实家庭，开启家庭服务机器人的新篇章。

这个名为WALL-B的模型，是全球首个基于世界统一模型（World Unified Model，WUM）架构的具身智能基础模型。它创新性地将视觉、听觉、语言、触觉、动作乃至物理预测，全部整合进同一个神经网络中进行从零开始的联合训练。这意味着，机器人首次有机会像人类一样，对环境、自身和任务形成一种整体性的、统一的理解。

更关键的是，WALL-B突破了此前VLA（视觉-语言-动作）模型只会模仿的“天花板”，开始具备对物理世界底层规律的认知能力，并能在真实交互中持续学习和自我进化。这标志着具身智能的基础模型，正从VLA的模块拼接架构，向原生多模态融合架构实现一次重大跨越，为人形机器人进入家庭扫清了关键障碍。

一、从WALL-A到WALL-B：机器人大脑从“模块拼装”进化到“原生统一”

近期，北京人形机器人马拉松火爆全网，机器人在硬件本体和运动控制上的进步有目共睹。但热闹背后，人形机器人在灵巧操作、任务泛化等方面，依然面临不少困境。这恰恰是机器人迟迟无法进入真实场景、替你“干活”的关键瓶颈。

目前主流的具身大模型，大多基于VLA架构。自变量早期也推出了基于此架构的第一代模型WALL-A。然而，当团队真正尝试把机器人送进家庭后，VLA架构的天花板便清晰显现。

VLA技术生态虽然成熟，但其本质是多个独立模块的串联拼接。信息就像流水线上的零件，需要逐级传递，每经过一个模块，信息就损耗一次。等传到机器人执行端时，指令可能已经“失真”或“残缺”，导致操作失误。

这很像苹果M1芯片问世前的Mac电脑：CPU、GPU、内存各自独立，数据在它们之间来回搬运，不可避免地产生延迟和损耗。

此外，VLA模型能让机器人模仿训练数据中的动作轨迹，却无法理解背后的物理规律。机器人只会“死记硬背”，不懂“底层逻辑”，一旦遇到训练集之外的状况，就容易“露怯”。正如自变量机器人CTO王昊所总结的：“模仿，就是VLA的天花板。”

例如，当看到一个盘子悬在桌边时，基于VLA的机器人无法理解重力作用会导致其掉落，自然也就想不到需要把它往里推一推，防止摔碎。

从WALL-A到WALL-B，自变量实现的并非一次普通迭代，而是一场从VLA到WUM的架构革命。其核心，是将机器人的“大脑”从“模块拼装”改造为“原生统一”。

WALL-B就像苹果M1芯片统一了内存架构那样，将视觉、语言、动作、物理预测等所有能力，置于同一个网络中从零开始联合训练。它彻底打破了模块间的壁垒，让各个模块从过去的“分头行动”走向“协同运转”，实现了信息的高效无损处理。

过去，机器人处理任务像是“传话游戏”；而现在，模块边界和数据搬运的损耗被消除，它能够对环境、身体、任务进行整体性思考。这种能力，就像我们看到杯子快掉下桌子时，手往往比脑子更快地伸出去接住——因为在那个瞬间，人类对环境、物体状态、身体动作和潜在后果，拥有一种瞬间完成的、整体性的理解。这正是WALL-B赋予机器人的核心能力。

二、基于世界统一模型：WALL-B让机器人拥有“世界观”并能自我进化

基于世界统一模型（WUM）架构，WALL-B实现了三项区别于行业现有模型的核心技术特征，为家庭服务机器人提供了真正的“智慧大脑”。

1. 原生多模态

WALL-B从训练的第一天起，就对视觉、听觉、语言、触觉、动作等多模态数据进行同步标注与联合训练。这使得机器人能像人一样进行多感官协同决策。

于是，机器人看到杯子快掉下去的同时，手就已经伸了出去，并同步调整力度将其稳妥放好。模型不再需要像流水线一样，等待不同模块逐级“翻译”和“传话”才能进行下一步，极大地提升了反应速度和操作精度。

这种架构让模型首次拥有了“原生本体感”。机器人能感知自身的尺寸与空间位置，判断自己在环境中的状态。遇到狭窄过道、半开的门或高处的物品时，它能清楚判断能否通过、能否够到、够到后会发生什么。相比之下，许多扫地机器人甚至不具备这种基础的空间意识。

WALL-B还赋予了机器人“部件级理解”能力。看到一个杯子时，它能像人一样感知把手朝向、材质、图案、杯内是否有水，以及如何握持更合适。在一个家庭认识了一个杯子后，即便换到另一个环境、面对外形完全不同的杯子，它依然能识别其功能，实现真正的零样本泛化。

2. 物理世界的“世界观”

WALL-B让机器人不止“看见”世界，更能“读懂”世界。它能感知并预测重力、惯性、摩擦力、速度等基本物理规律，这是实现安全、可靠家庭服务的基础。

当机器人端起一个装满水的杯子时，它能感知杯中有水，重量会因液体晃动而变化；力度太小可能打滑，太大可能捏翻杯子，移动太快则会因惯性把水洒出。因此，它会动态调整手部力度和移动速度，确保平稳。

真正支撑零样本泛化能力的，并非模型记住了多少具体任务，而是它开始理解这个世界的基本运行规律。今天能在一个家庭里判断如何端稳水杯，明天就能在陌生环境里，处理材质、重量、形状各异的容器。机器人掌握的，不再是一个个孤立的动作模板，而是一套可迁移到无数场景的底层常识，这是迈向通用人工智能（AGI）的关键一步。

3. 与世界交互并自我进化

目前，基于VLA模型的机器人在任务失败后，通常直接停止并报错，无法从失败中学习。而WALL-B的行为模式截然不同：它在失败后会调整策略再次尝试；如果成功，则将这次成功的经验直接更新到模型参数中。这是WUM架构区别于所有现有VLA模型的最根本特征，也是实现持续学习的关键。

机器人的学习方式，从“等人喂数据、等工程师重训”，转变为在真实世界“边做边学”，越来越聪明。王昊比喻，这就像人类学习使用筷子，会在实践中不断调整角度和力度，最终将技能内化。

过去，我们看到许多会后空翻、跳街舞、写毛笔字的机器人表现惊艳，但其本质仍是预设轨迹的“命令行机器人”，每一个动作都经过精密编程或遥控操作。

家庭场景却无人能提前教完所有情况、预设所有轨迹。机器人只有理解更底层的物理规律和空间关系，并能在持续实践中不断进化，才可能真正落地于这个千变万化的场景。WALL-B的出现，让机器人具备了这种在复杂环境中学习和成长的能力。

三、从“糖水数据”到“牛奶数据”：用真实家庭场景转动数据飞轮

高质量真实数据的缺失，正是制约具身智能落地的核心一环。王昊认为，具身智能行业最大的秘密不是算法，不是架构，也不是硬件，而是数据。

规模化、流水线式的数据采集工厂，效率虽高，但依赖于预设场景和标准化任务，无法覆盖真实世界中那些非标准、非重复、琐碎的操作场景。

王昊将这类数据比喻为“糖水数据”——就像糖水除了甜味之外营养有限，这类数据虽然干净、可控、量大，但与真实家庭的复杂环境之间隔着一道鸿沟。基于此类数据训练的模型，在真实环境中往往迅速失效。

原因在于，真实家庭并非标准化实验室，而是由杂乱物品、多变光线、穿梭的宠物、孩子的打断和临时任务构成的“生活现场”。

与之相对，王昊提出了“牛奶数据”的概念。牛奶能提供实打实的营养，同样，在真实家庭环境中采集的、嘈杂、多变、充满随机性的数据，训练价值更高。这也正是自变量选择的数据道路，致力于打造最懂家庭的机器人。

为了获取这类数据，自变量团队进入了数百个志愿者的真实家庭进行模型训练。每一户的布局、灯光和混乱程度都独一无二，为模型提供了最丰富的学习素材。

真实家庭的重要性，不仅在于环境更复杂，更在于它让“任务规划”本身变得不可预设。王昊提到，机器人在进入任何一个家庭之前，很难提前知道具体要做什么，无法进行事无巨细的规划。这种不确定性，恰恰是训练机器人自主决策和适应能力的绝佳环境。

这种耗时耗力的“笨功夫”，恰恰构成了自变量的关键壁垒。机器人只有在这种千差万别的环境中训练，才可能建立起真正的泛化能力，适应不同家庭的个性化需求。

因此，自变量的策略是：用实验室数据打底，靠真实场景提质。前者让模型拥有基本能力，后者让模型学会在不确定、不可预测的环境中“生存”和“工作”。

更重要的是，WALL-B能让机器人在与真实世界的持续交互中，不断产生新数据、回流新经验，推动模型完成自我进化，从而形成“进家庭—获取数据—模型进化—进更多家庭”的正向数据飞轮。这是实现机器人持续智能化的核心引擎。

一旦这个飞轮真正转动起来，数据就将成为模型持续成长的燃料。像自变量这样更早进入真实场景、积累更多高质量交互数据的企业，其领先优势有望不断扩大，建立起坚实的数据护城河。

四、机器人1个月后入驻家庭，在工作中“越变越聪明”

此前，自变量已与58同城合作，将搭载WALL-AS模型的机器人送入真实家庭，与保洁阿姨协同作业，完成了全球首次机器人进入家庭的实际作业，验证了技术路线的可行性。

这一次，王潜明确宣布，将在5月25日，让搭载更先进的WALL-B模型的机器人进入真实家庭“干活”，标志着家庭服务机器人从实验阶段迈向常态化服务阶段。

对于机器人进家可能引发的隐私担忧，王潜提到，自变量将采用视觉脱敏、透明授权、用途限定等方案来保障用户隐私安全，让用户用得放心。

机器人进入家庭的想象空间，显然不止于售卖一台硬件。当机器人开始长期驻留家庭，它就不再只是一个消费电子产品，而更像一个可持续更新的服务系统。企业可以通过服务订阅、功能更新和模型升级，不断提升其能力，为用户带来持续价值。

对行业而言，这门生意将不再是一次性的硬件销售，而是凭借持续服务和升级，与用户建立长期付费关系，开创智能家居服务的新商业模式。

王潜也坦言，当前模型仍处于“实习生”阶段，会犯错，需要远程协助，有时可能把拖鞋放进厨房，或擦桌子擦到一半停下来“思考”。但其优势在于能够实现24小时不间断工作，并且每工作一天，都会因为新数据的产生而变得更“聪明”，其成长速度远超人类。

结语：家庭这道终极考题，正成为机器人真正长大的地方

家庭，是具身智能最复杂、最琐碎、最难以标准化的场景，也因此成为检验机器人是否真正具备通用能力的终极考场。它要求机器人不仅会动，更要会思考、会适应、会学习。

今天的机器人或许还走得慢、做得笨、时常犯错，但真正重要的变化已经发生：它已经开始走进家庭，在这个充满随机性与不确定性的真实世界里，一边干活，一边学习，持续进化。这不仅是技术的进步，更是人机共融生活方式的起点。

对于具身智能而言，这不仅仅是一次场景落地，更像是一场真正意义上的启程。机器人已经在最复杂的地方，开始了自己的成长。未来，随着WALL-B这样的模型不断进化，一个由智能机器人协助打理家务的时代，正加速向我们走来。

来源:https://www.163.com/dy/article/KR7J0055051180F7.html

上一篇：腾讯混元大模型正式上线姚顺雨团队主导研发

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

热门专题

刀塔传奇破解版无限钻石下载大全

洛克王国正式正版手游下载安装大全

思美人手游下载专区

好玩的阿拉德之怒游戏下载合集

不思议迷宫手游下载合集

百宝袋汉化组游戏最新合集

jsk游戏合集30款游戏大全

宾果消消消原版下载大全

日榜
周榜
月榜

永劫无间账号购买平台推荐与安全交易指南

梦幻魔法公主善恶值系统解析与调整方法指南

茶叶蛋的冒险第14关荡秋千怎么过图文通关攻略详解

无畏契约源能行动一局游戏需要多长时间

茶叶蛋大冒险第16关怎么过相对运动图文通关攻略

蓝色星原旅谣角色强度榜与技能实战解析

蔚蓝星球零氪微氪新手攻略 20条技巧助你开局避坑

茶叶蛋大冒险第18关通关攻略图文详解隐藏关卡怎么过

文字三国志游戏评测与新手玩法指南

茶叶蛋神秘之旅第28关怎么过遵守规则通关图文攻略

NS版饿殍明末千里行今日发售全流程攻略与剧情解析

洛克王国倒影暗域地图位置与进入方法详解

洛克王国奇丽花性格选择攻略与对战搭配指南

洛克王国铁居小堡技能组合与实战搭配攻略

洛克王国水晶地穴位置与进入方法详解

洛克王国月光桃源进入条件与VIP权限详解

DNF千海天版本光枪毕业装备搭配指南

DNF千海天版本驱魔师最强毕业装备搭配指南

植物大战僵尸网页版2026最新官方入口地址与登录指南

DNF千海天混沌魔灵毕业装备搭配攻略

《问剑长生》新大区预创角开启，是什么福利让玩家直呼夯爆了？

紧急！Axios 被投毒，3亿项目受到影响！教你怎么自查！

兆易创新2025年年营收92亿元，净利16亿元

TensorFlow - AI开发平台,AI开发框架

解决sql server2008注册表写入失败，vs2013核心功能安装失败

《九牧之野》S3乱世诡道主题服开启：4月18日上线，预备盟奖励与开服福利一文看懂

donk：对待季军赛的心态和决赛不一样，总之已经拿不到冠军了

iPhone 15耳机连接后音量小原因排查与解决

蛮荒领主手游测试资格获取方式蛮荒领主内测资格申请渠道与条件详解

极狐S3预告发布：三电可选、宽体运动设计，2026北京车展亮相

通用世界模型问世机器人将具备自主进化与认知能力

一、从WALL-A到WALL-B：机器人大脑从“模块拼装”进化到“原生统一”

二、基于世界统一模型：WALL-B让机器人拥有“世界观”并能自我进化

三、从“糖水数据”到“牛奶数据”：用真实家庭场景转动数据飞轮

四、机器人1个月后入驻家庭，在工作中“越变越聪明”

结语：家庭这道终极考题，正成为机器人真正长大的地方

通用世界模型问世机器人将具备自主进化与认知能力

腾讯混元大模型正式上线姚顺雨团队主导研发

月之暗面Kimi浏览器插件安装与使用指南

OpenClaw养虾守护进程安装与使用指南

PowerShell执行openclaw命令报错解决方法