自变量发布新一代具身智能模型WALL-B 破解家庭场景应用难题
早上七点,闹钟响了。你从床上爬起来,走到客厅。拖鞋不知踢到哪里,厨房的碗还没洗,孩子的书包扔在地上,猫打翻了一杯水。在自变量创始人兼CEO王潜看来,这种家庭环境的本质就是随机、碎片和不断变化的。他直言,目前全球没有任何一台机器人能在无人遥控的情况下,独立搞定上述场景里的综合整理任务。
这背后的原因是什么?舞台上的后空翻、跳街舞、写毛笔字,这些机器人演示视觉冲击力固然强,但本质上都是预设轨迹的“命令行机器人”,每一个动作都经过精密编程或远程操控。即便是工厂里已经大规模部署的工业机器人,也构不成可比案例。工厂环境追求的是极致稳定,一个动作可以重复一万次,且每次条件都一模一样。但家庭呢?一万个动作可能每个只做一次,而且每次的环境条件都天差地别。正因如此,让机器人真正进入家庭,被普遍视为“这个时代最难的技术问题之一”。
4月21日,自变量机器人发布了新一代自研的具身智能基础模型WALL-B。这个模型基于世界统一模型架构(World Unified Model, WUM),标志着具身基础模型从传统的VLA架构,向原生多模态融合架构的一次重大跨越。更关键的是,自变量宣布,搭载WALL-B的新一代机器人将在35天后,也就是5月25日,首批入驻真实家庭。

在具体应用上,自变量与58同城达成了合作。他们将把搭载WALL-AS模型的机器人送入真实家庭,与保洁阿姨协同作业。这不再是实验室里的演示,而是机器人真正踏入人类复杂的家居生活,开始提供服务。
架构革命:从“各自为政”到“融为一体”
据自变量联合创始人兼CTO王昊介绍,WALL-B真正区别于行业其他方案的核心,在于其从VLA到WUM的架构革命。这个设计思路,可以类比苹果的Apple Silicon统一内存架构。
在苹果M1芯片之前的Mac电脑上,CPU、GPU、内存各自独立,数据在不同模块间搬运产生的延迟和损耗,成了性能提升的瓶颈。而苹果通过统一内存架构,让所有处理单元共享同一块内存,性能因此得到大幅飞跃。
机器人领域的VLA架构,就类似于M1之前的笔记本电脑。视觉模块、语言模块、动作模块各自为政,数据在模块之间搬来搬去,每搬一次就丢失一部分信息。视觉感知到的丰富世界,传到动作模块时,可能只剩下一个模糊的摘要指令。
WALL-B采用的WUM架构,核心理念与此相同。它将视觉、语言、动作、物理预测等所有能力,放在同一个神经网络中,从零开始进行联合训练,最终融为一体。这彻底消除了模块间的边界和数据搬运损耗。
WUM架构带来的三大核心技术特征
基于这一碘伏性架构,WALL-B实现了三项区别于现有行业模型的核心技术特征。
第一,原生多模态与“原生本体感”
WALL-B从训练的第一天起,就对视觉、听觉、语言、触觉、动作等多模态数据进行同步标注与联合训练,实现了“多模态进、多模态出”。这意味着模型不再需要通过“传话”的方式在不同模块间转译信息——它看到杯子的同时,就已经在准备伸手;感觉到重量的瞬间,就已经在调整力度。
更值得一提的是,这种架构首次赋予了模型一种被称为“原生本体感”的能力。WALL-B无需持续观察自身全身,或依赖大量外部传感器,就能内在地感知自身的空间尺寸,比如高度、宽度、手臂的伸展范围,并据此判断能否通过某个狭窄空间或触及某个物体。这是一种内生的空间感知能力,而非通过外部测量或建模获得。王昊指出,这种能力,甚至许多动物都不具备。
第二,物理世界的“世界观”
WALL-B能够感知并预测重力、惯性、摩擦力、速度等基本物理规律。在从未见过的场景中——例如一个盘子一半悬空在桌沿外——模型可以推断出“盘子会掉落摔碎”,从而主动采取预防动作。这种对物理规律的深刻理解,为零样本泛化提供了坚实基础。毕竟,物理规律在不同家庭环境中是普遍一致的,WALL-B在任何一个它从未去过的房子里,都能利用这套物理常识来应对新场景,而不需要针对每个家庭重新训练。
第三,与世界交互并自我进化
这是WUM架构区别于所有现有VLA模型的最根本特征。目前主流的机器人在任务失败后,通常直接停止,返回一个错误信息,无法从失败中学习。而WALL-B的行为模式则完全不同:它在失败后会主动调整策略,再次尝试。如果成功了,这次成功的经验会直接更新到模型参数中。
这种机制使得模型能在真实环境中完成自我迭代,无需工程师重新训练、无需人工注入新数据、也无需返回实验室。王昊将其类比为人类学习使用筷子的过程:“筷子掉了无数次,但每一次失败都在调整手上的控制,最终形成稳定的技能。WALL-B克服了Transformer架构难以进行长期内化记忆的问题,所有经验以原生多模态记忆的方式,通过类似人脑记忆的机制实现自我更新。”
“尽管进入家庭的机器人现在还很笨,走得很慢,经常犯错。”王潜说道,“但回想一下,人类从婴儿时期迈出的第一步,不也是如此吗?每一个伟大的旅程,都是从踉踉跄跄的第一步开始的。如今,机器人已经在最复杂的地方,开始了它学习和进化的征程。”
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
自变量发布新一代具身智能模型WALL-B 破解家庭场景应用难题
早上七点,闹钟响了。你从床上爬起来,走到客厅。拖鞋不知踢到哪里,厨房的碗还没洗,孩子的书包扔在地上,猫打翻了一杯水。在自变量创始人兼CEO王潜看来,这种家庭环境的本质就是随机、碎片和不断变化的。他直言,目前全球没有任何一台机器人能在无人遥控的情况下,独立搞定上述场景里的综合整理任务。 这背后的原因是
OpenAI拟投资15亿美元布局企业级AI市场
据英国《金融时报》最新披露,人工智能领域的领军企业OpenAI正加速布局企业级市场。知情人士透露,OpenAI计划向一家新成立的合资企业投入巨额资金,投资总额可能达到15亿美元。 据悉,这家内部代号为“DeployCo”的合资公司已在特拉华州正式注册。其核心目标清晰聚焦于推动OpenAI办公套件等企
阿里千问推出小酒窝AI数字人将接入旗下生态应用
4月22日,阿里巴巴正式推出其生态级AI助手“通义千问”的全新数字人形象——“千问小酒窝”。这个拥有标志性温暖笑容的虚拟形象,不仅是技术的展示,更标志着阿里正加速将其庞大的生活服务生态进行智能化整合,致力于为用户提供更统一、便捷的入口。 简单来说,未来用户只需在千问App中与这位“小酒窝”对话,即可
微软 Edge Copilot 新增跨标签页信息整合功能
微软Edge浏览器迎来重磅更新,其内置的Copilot AI助手现已具备跨标签页内容感知能力。这意味着,当你与Copilot对话时,它可以实时“看到”并理解你所有已打开的网页内容。无论是比较多个电商页面的商品详情,还是快速提炼几篇研究文章的核心论点,Copilot都能帮你高效整合信息,让跨页面信息处
预计算力需求持续旺盛行业景气度维持高位
近日,上海在数字经济战略布局上再出关键举措。市政府办公厅正式印发《国家数字经济创新发展试验区(上海)实施方案》,其中对算力资源的规划部署成为业界关注焦点。方案明确提出,要加快推进算力资源的高效互联与协同调度。具体而言,将进一步提升上海市算力监测调度平台与长三角(上海)算力互联互通平台的核心功能,积极
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

