当前位置: 首页
AI资讯
深度机智发布全球首个具身基座模型以人类学习范式实现效率超越真机

深度机智发布全球首个具身基座模型以人类学习范式实现效率超越真机

热心网友 时间:2026-05-20
转载

2026年,具身智能领域冰火交织。一边是宇树科技递交招股书,估值冲击百亿;另一边,Figure AI、Physical Intelligence等美国公司融资额屡创新高,将行业热度推向顶点。国内创业公司闻风而动,一场围绕数据、场景和本体的军备竞赛已然打响,十万小时真机数据成了新的硬通货。

然而,喧嚣之下,一个略显尴尬的共识正在形成:没人能确定哪条技术路线才是对的。从遥操作、仿真合成到互联网视频、人类第一视角,数据类型的选择远未收敛;从行星减速、谐波力控到电驱液压,本体结构的争论也尚未尘埃落定。行业在“大力出奇迹”的信仰下一路狂奔,却鲜少有人追问一个根本问题:我们投喂的这些海量数据,究竟在教会机器人什么?

最近,一个值得关注的新趋势出现了:越来越多的具身智能公司开始将目光投向一条曾被低估的数据路径——“人类第一视角数据”。

2026年以来,小米、蚂蚁、章鱼动力等公司纷纷组建新团队跟进这一路线。其中,深度机智创始人、前微软亚洲研究院首席研究员陈凯的观点,引发了行业内的热烈讨论。

3月27日,在中关村论坛上,陈凯代表深度机智发布了首个具身智能基座模型PhysBrain 1.0,并公布了相关研究成果。这个模型仅使用了1000小时的人类第一视角数据,未使用任何真机数据,却在多个国际权威榜单上超越了依赖数万小时真机数据的竞争对手,取得了SOTA(当前最优)成绩,表现甚至优于Physical Intelligence和英伟达等头部巨头。

这似乎预示着,一场关乎“物理常识”的静默革命,正在具身智能领域悄然拉开序幕。

模型缺乏物理常识,是具身领域的巨大痛点

“目前不管是VLM(视觉语言模型)还是世界模型,始终会卡在一个点上:它们缺乏物理常识。”陈凯在论坛上一针见血地指出了行业痛点。

这个判断精准命中了当前具身智能的核心困境。正如许多研究者遇到的情况,VLM模型往往难以理解空间和时序关系,“桌子上面放了几个杯子,它数不清有几个”;而视频生成模型则可能“视觉上足以乱真,但运动的真实性和物理合理性比较差”。这些基础能力的缺失,让机器人在面对真实世界的复杂性与不确定性时屡屡受挫。

问题的根源,或许在于数据与学习目标的错位。当前行业的主流做法——无论是通过遥操作采集真机数据、在仿真环境中合成虚拟数据,还是模仿人类手部轨迹——本质上都是在教机器人“模仿动作”,而非“理解世界”。

“现在非常多的做法,其实是手把手地教猴子干活。”陈凯用了一个形象的比喻,“而我们正在尝试的是:请菩提祖师把猴子变成孙悟空,让它先理解世界,再去学习技能。”

这种“理解优先”的方法论,正获得越来越多的证据支持。深度机智近期发布的PhysBrain 1.0模型,正是基于这一思路取得的阶段性成果。这一结果也挑战了行业的一个默认假设:更多的数据,是否必然带来更高级的智能?

人类第一视角:被重新发现的数据富矿

“人类第一视角数据,因为它是人观察世界的第一视角,收集的是真实物理世界的数据,天然就蕴含着各种各样的物理常识。”陈凯这样解释押注该路线的原因。

无独有偶,这类数据的价值在2024至2025年间被重新评估。2025年5月,特斯拉宣布放弃遥操作,转向人类第一视角数据;6月,Figure AI发布了展示拟人行为的“扔积木”Demo;10月,Generalist AI验证了Scaling Law在此类数据上的有效性;12月,Physical Intelligence确认了人类数据的价值;到了2026年2-3月,英伟达也发表论文进行了交叉验证。

行业共识迅速凝聚:人类第一视角数据并非遥操作的简单替代品,而是通往“物理常识”认知的关键路径。

然而,分歧依然存在。例如,英伟达的论文仍侧重于手部轨迹的预训练,而深度机智则选择“直接增强VLM本身——让它依据人看到的这个世界去理解世界”。陈凯认为,这种路径差异让深度机智“在整个流程上应该比英伟达略有领先”。

更深层的差异在于数据的“多样性”。遥操作数据记录的是机器人视角,任务和场景多为人工设计;UMI(通用操作接口)数据则需要人手持夹爪操作,“很难想象工厂主要求员工不能用手干活”。相比之下,人类第一视角数据捕捉的是真实生活场景,“哪怕你只是静静地发呆,看到外面车水马龙,这些数据对我们都有价值”。

这种多样性带来的不仅是数据采集效率的提升,更是学习质量的本质跃迁。

从“轨迹拟合”到“物理常识”:方法论的范式转移

“智能涌现”现象为这场革命提供了最直观的证据。

在深度机智的测试中,模型训练数据全是“夹起胡萝卜放盘子里”这类动作。但当机械臂尝试夹取胡萝卜失败时,它竟自发地选择了“推”这个动作——推一次没推进去,就换个角度加大力度再推,最后才转变策略重新尝试夹起。另一个案例中,机械爪因夹取方块的位置太靠后导致掉落,它会主动回来捡拾,第一次失败后,第二次“做了一个非常轻微的旋转”便成功夹起。

“这种灵活性,甚至你都没有办法通过预编程来实现。”陈凯描述道,“千小时人类数据增强了物理常识,自发地将人类灵活变通的能力迁移到了机器人身上。”

这种“涌现”能力揭示了一个深层规律:当模型具备了足够的物理常识,它便不再依赖精确的轨迹模仿,而是能够像人类一样“理解情境、灵活应对”。这正是“物理常识”革命的核心,即从“教动作”到“教理解”的范式转移。

Physical Intelligence的创始人将这种能力称为“智能的暗物质”。DeepMind的哈萨比斯也认为,原生多模态模型对物理世界的更好理解,可成为机器人的大脑。

“所有的这些点都归结到一个:要先去理解这个世界,然后再到这个世界里面去行动。”陈凯总结道。

跨本体能力:物理常识的迁移效应

“物理常识”革命带来的另一个重要成果,是“跨本体能力”的涌现。

传统方法要实现不同形态机器人间的技能迁移,往往需要“把不同形态的机器人的数据做联合训练”。但深度机智观察到:“有了一个理解物理常识的大脑,它自然而然知道适配什么样的身体。”

这一发现碘伏了“一个机器人一套数据”的行业惯例。通过用LoRA预训练动作专家模型,再针对Franka机械臂进行微调,数据需求大幅下降。其背后的逻辑在于——“不同形态机器人背后的物理规律一模一样”。

“跨本体是物理智能增强自然而然会出现的结果,并不是刻意地把多种机器人数据放在一起训练出来的。”陈凯解释道。

这意味着,物理常识具有跨平台、跨形态的通用性。一旦模型掌握了“物体受力会移动”、“抓取需要摩擦力”等基础物理规律,它就能将这些知识迁移到新的硬件平台上,而无需针对每个新本体从头开始学习。

这种通用性,正是通往“具身通用智能”的关键阶梯。

“人类学习路线”正在国内悄然崛起

在全球具身智能的竞赛版图上,中国与美国呈现出不同的发展侧重。

过去,中国团队更多聚焦于机器人本体(硬件)的迭代与突破,例如宇树科技等在硬件上取得的显著成绩;而美国团队则更侧重于“大脑”(算法与模型)的研发。当时,“具身大脑上的团队其实并没有那么多”。

这一格局正在发生改变。2025至2026年间,国内开始涌现一批专注“大脑”的团队。深度机智的崛起,以及小米、蚂蚁、章鱼动力等公司在2026年初纷纷组建新团队跟进“人类学习路线”,标志着行业重心正在发生转移。

从某种角度看,国内目前在技术路径和认知水平上与世界一流科学家差距不大,但需要更多的资源投入。其中,数据成本优势尤为明显——在美国标注27万小时第一视角数据可能需要上亿美元,而在中国,千万小时量级的人力历史数据在今年整个行业就有望达到。

当然,2026年的“物理常识”革命仍处于早期阶段。尽管深度机智用1000小时数据“涌现”出了纠错、变通、跨本体等能力,但陈凯也承认这仍是“偶然的智能涌现”。2026年底能否出现“效果出人意料好的具身智能大模型”?两三年内能否重现ChatGPT那样的突破时刻?一切都还是未知数。

更深层的挑战在于行业生态。“物理常识”的提取、标注与利用,需要全新的模型架构和训练方法,这与当前主流的VLA、π0等架构并不完全兼容。这意味着,拥抱这场革命,可能需要对既有的技术积累和基础设施进行重构。

但潜在的回报同样诱人。一旦机器人具备了真正的“物理常识”,它将不再是“教什么才会什么”的专用工具,而是能够“理解情境、灵活应对”的通用助手。这将彻底改变制造业、服务业、危险作业等无数领域的生产力图景。

对于这场变革的意义,陈凯的判断是:“这可能是人工智能的最后一个机会,也是最大的一次。”这或许代表了投身于此的研究者们最坚定的决心。

当整个行业仍在“大力出奇迹”的惯性下堆砌数据时,一条“理解优先”的新路径已经清晰显现。它并非对数据量的否定,而是对学习质量的重构——从“模仿动作”到“理解世界”,从“教猴子”到“变孙悟空”。

这场“物理常识”革命的成败,将很大程度上决定具身智能未来十年的走向。而2026年,正站在这个关键的转折点上。

第一视角效率超过真机,深度机智发布全球首个以人类学习范式构建的具身基座模型

来源:https://www.leiphone.com/category/ai/BLS2oRfBOj5bwGyP.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
OpenClaw部署步骤详解与实战经验分享

OpenClaw部署步骤详解与实战经验分享

最初尝试在Windows系统上直接部署,但遇到了一些意料之外的bug。 起初怀疑是Node js版本的问题,于是切换到了一个v22 22 1(LTS)的稳定版本,并开启了网络加速工具,但依赖包依然卡在安装环节。几番尝试无果后,决定转换思路,改用Windows自带的WSL(Linux子系统)环境,最终

时间:2026-05-20 16:30
快马多模型AI助手如何赋能你的智能工作流

快马多模型AI助手如何赋能你的智能工作流

在探索如何利用人工智能切实提升办公效率的过程中,我发现一个极具潜力的方向:将AI能力深度融入日常工作流。基于这一理念,我开发了一个智能工作助手的原型系统,本文将详细分享其设计思路与实现方案。 核心功能设计 该助手主要针对三个办公场景中的高频痛点进行优化: 自然语言创建任务:无需手动填写表单,直接用口

时间:2026-05-20 16:30
OpenClaw人人养虾接入Matrix平台操作指南

OpenClaw人人养虾接入Matrix平台操作指南

Matrix 是一种开放且去中心化的即时通讯协议,允许用户自主部署私有服务器并接入全球 Matrix 联邦网络。OpenClaw 网关通过集成 Matrix 的 Client-Server API,实现与这一分布式通信生态的无缝对接。 前置准备 在配置 OpenClaw 连接 Matrix 之前,请

时间:2026-05-20 16:30
OpenClaw配置参数详解与优化指南

OpenClaw配置参数详解与优化指南

OpenClaw 的命令行结构设计得相当清晰,遵循了现代 CLI 工具的主流范式。其核心语法可以概括为: openclaw [全局选项] [子命令] [命令参数] 简单来说,就是先指定全局的运行方式,再选择要执行的具体操作。下面这个表格帮你快速理解各个部分的作用和典型用法: 参数 命令 含义 常见用

时间:2026-05-20 16:30
腾讯QQ全面接入OpenClaw平台功能详解

腾讯QQ全面接入OpenClaw平台功能详解

4月1日,腾讯QQ通过其官方微博正式宣布,QQ已完成与OpenClaw官方平台的原生深度整合。面对网友关于“愚人节玩笑”的猜测,QQ官方以一句“这料保真”给予了明确回应,确认了这一重磅合作。 根据官方发布的信息,用户只需将OpenClaw更新至最新的v2026 3 31版本,即可在QQ内直接体验“养

时间:2026-05-20 16:29
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程