数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

热点详情

深度机智发布全球首个具身基座模型以人类学习范式实现效率超越真机

AI热点日报时间：2026-05-20

热点解读

2026年，具身智能领域冰火交织。一边是宇树科技递交招股书，估值冲击百亿；另一边，Figure AI、Physical Intelligence等美国公司融资额屡创新高，将行业热度推向顶点。国内创业公司闻风而动，一场围绕数据、场景和本体的军备竞赛已然打响，十万小时真机数据成了新的硬通货。然而，喧嚣

2026年，具身智能领域冰火交织。一边是宇树科技递交招股书，估值冲击百亿；另一边，Figure AI、Physical Intelligence等美国公司融资额屡创新高，将行业热度推向顶点。国内创业公司闻风而动，一场围绕数据、场景和本体的军备竞赛已然打响，十万小时真机数据成了新的硬通货。

然而，喧嚣之下，一个略显尴尬的共识正在形成：没人能确定哪条技术路线才是对的。从遥操作、仿真合成到互联网视频、人类第一视角，数据类型的选择远未收敛；从行星减速、谐波力控到电驱液压，本体结构的争论也尚未尘埃落定。行业在“大力出奇迹”的信仰下一路狂奔，却鲜少有人追问一个根本问题：我们投喂的这些海量数据，究竟在教会机器人什么？

最近，一个值得关注的新趋势出现了：越来越多的具身智能公司开始将目光投向一条曾被低估的数据路径——“人类第一视角数据”。

2026年以来，小米、蚂蚁、章鱼动力等公司纷纷组建新团队跟进这一路线。其中，深度机智创始人、前微软亚洲研究院首席研究员陈凯的观点，引发了行业内的热烈讨论。

3月27日，在中关村论坛上，陈凯代表深度机智发布了首个具身智能基座模型PhysBrain 1.0，并公布了相关研究成果。这个模型仅使用了1000小时的人类第一视角数据，未使用任何真机数据，却在多个国际权威榜单上超越了依赖数万小时真机数据的竞争对手，取得了SOTA（当前最优）成绩，表现甚至优于Physical Intelligence和英伟达等头部巨头。

这似乎预示着，一场关乎“物理常识”的静默革命，正在具身智能领域悄然拉开序幕。

模型缺乏物理常识，是具身领域的巨大痛点

“目前不管是VLM（视觉语言模型）还是世界模型，始终会卡在一个点上：它们缺乏物理常识。”陈凯在论坛上一针见血地指出了行业痛点。

这个判断精准命中了当前具身智能的核心困境。正如许多研究者遇到的情况，VLM模型往往难以理解空间和时序关系，“桌子上面放了几个杯子，它数不清有几个”；而视频生成模型则可能“视觉上足以乱真，但运动的真实性和物理合理性比较差”。这些基础能力的缺失，让机器人在面对真实世界的复杂性与不确定性时屡屡受挫。

问题的根源，或许在于数据与学习目标的错位。当前行业的主流做法——无论是通过遥操作采集真机数据、在仿真环境中合成虚拟数据，还是模仿人类手部轨迹——本质上都是在教机器人“模仿动作”，而非“理解世界”。

“现在非常多的做法，其实是手把手地教猴子干活。”陈凯用了一个形象的比喻，“而我们正在尝试的是：请菩提祖师把猴子变成孙悟空，让它先理解世界，再去学习技能。”

这种“理解优先”的方法论，正获得越来越多的证据支持。深度机智近期发布的PhysBrain 1.0模型，正是基于这一思路取得的阶段性成果。这一结果也挑战了行业的一个默认假设：更多的数据，是否必然带来更高级的智能？

人类第一视角：被重新发现的数据富矿

“人类第一视角数据，因为它是人观察世界的第一视角，收集的是真实物理世界的数据，天然就蕴含着各种各样的物理常识。”陈凯这样解释押注该路线的原因。

无独有偶，这类数据的价值在2024至2025年间被重新评估。2025年5月，特斯拉宣布放弃遥操作，转向人类第一视角数据；6月，Figure AI发布了展示拟人行为的“扔积木”Demo；10月，Generalist AI验证了Scaling Law在此类数据上的有效性；12月，Physical Intelligence确认了人类数据的价值；到了2026年2-3月，英伟达也发表论文进行了交叉验证。

行业共识迅速凝聚：人类第一视角数据并非遥操作的简单替代品，而是通往“物理常识”认知的关键路径。

然而，分歧依然存在。例如，英伟达的论文仍侧重于手部轨迹的预训练，而深度机智则选择“直接增强VLM本身——让它依据人看到的这个世界去理解世界”。陈凯认为，这种路径差异让深度机智“在整个流程上应该比英伟达略有领先”。

更深层的差异在于数据的“多样性”。遥操作数据记录的是机器人视角，任务和场景多为人工设计；UMI（通用操作接口）数据则需要人手持夹爪操作，“很难想象工厂主要求员工不能用手干活”。相比之下，人类第一视角数据捕捉的是真实生活场景，“哪怕你只是静静地发呆，看到外面车水马龙，这些数据对我们都有价值”。

这种多样性带来的不仅是数据采集效率的提升，更是学习质量的本质跃迁。

从“轨迹拟合”到“物理常识”：方法论的范式转移

“智能涌现”现象为这场革命提供了最直观的证据。

在深度机智的测试中，模型训练数据全是“夹起胡萝卜放盘子里”这类动作。但当机械臂尝试夹取胡萝卜失败时，它竟自发地选择了“推”这个动作——推一次没推进去，就换个角度加大力度再推，最后才转变策略重新尝试夹起。另一个案例中，机械爪因夹取方块的位置太靠后导致掉落，它会主动回来捡拾，第一次失败后，第二次“做了一个非常轻微的旋转”便成功夹起。

“这种灵活性，甚至你都没有办法通过预编程来实现。”陈凯描述道，“千小时人类数据增强了物理常识，自发地将人类灵活变通的能力迁移到了机器人身上。”

这种“涌现”能力揭示了一个深层规律：当模型具备了足够的物理常识，它便不再依赖精确的轨迹模仿，而是能够像人类一样“理解情境、灵活应对”。这正是“物理常识”革命的核心，即从“教动作”到“教理解”的范式转移。

Physical Intelligence的创始人将这种能力称为“智能的暗物质”。DeepMind的哈萨比斯也认为，原生多模态模型对物理世界的更好理解，可成为机器人的大脑。

“所有的这些点都归结到一个：要先去理解这个世界，然后再到这个世界里面去行动。”陈凯总结道。

跨本体能力：物理常识的迁移效应

“物理常识”革命带来的另一个重要成果，是“跨本体能力”的涌现。

传统方法要实现不同形态机器人间的技能迁移，往往需要“把不同形态的机器人的数据做联合训练”。但深度机智观察到：“有了一个理解物理常识的大脑，它自然而然知道适配什么样的身体。”

这一发现碘伏了“一个机器人一套数据”的行业惯例。通过用LoRA预训练动作专家模型，再针对Franka机械臂进行微调，数据需求大幅下降。其背后的逻辑在于——“不同形态机器人背后的物理规律一模一样”。

“跨本体是物理智能增强自然而然会出现的结果，并不是刻意地把多种机器人数据放在一起训练出来的。”陈凯解释道。

这意味着，物理常识具有跨平台、跨形态的通用性。一旦模型掌握了“物体受力会移动”、“抓取需要摩擦力”等基础物理规律，它就能将这些知识迁移到新的硬件平台上，而无需针对每个新本体从头开始学习。

这种通用性，正是通往“具身通用智能”的关键阶梯。

“人类学习路线”正在国内悄然崛起

在全球具身智能的竞赛版图上，中国与美国呈现出不同的发展侧重。

过去，中国团队更多聚焦于机器人本体（硬件）的迭代与突破，例如宇树科技等在硬件上取得的显著成绩；而美国团队则更侧重于“大脑”（算法与模型）的研发。当时，“具身大脑上的团队其实并没有那么多”。

这一格局正在发生改变。2025至2026年间，国内开始涌现一批专注“大脑”的团队。深度机智的崛起，以及小米、蚂蚁、章鱼动力等公司在2026年初纷纷组建新团队跟进“人类学习路线”，标志着行业重心正在发生转移。

从某种角度看，国内目前在技术路径和认知水平上与世界一流科学家差距不大，但需要更多的资源投入。其中，数据成本优势尤为明显——在美国标注27万小时第一视角数据可能需要上亿美元，而在中国，千万小时量级的人力历史数据在今年整个行业就有望达到。

当然，2026年的“物理常识”革命仍处于早期阶段。尽管深度机智用1000小时数据“涌现”出了纠错、变通、跨本体等能力，但陈凯也承认这仍是“偶然的智能涌现”。2026年底能否出现“效果出人意料好的具身智能大模型”？两三年内能否重现ChatGPT那样的突破时刻？一切都还是未知数。

更深层的挑战在于行业生态。“物理常识”的提取、标注与利用，需要全新的模型架构和训练方法，这与当前主流的VLA、π0等架构并不完全兼容。这意味着，拥抱这场革命，可能需要对既有的技术积累和基础设施进行重构。

但潜在的回报同样诱人。一旦机器人具备了真正的“物理常识”，它将不再是“教什么才会什么”的专用工具，而是能够“理解情境、灵活应对”的通用助手。这将彻底改变制造业、服务业、危险作业等无数领域的生产力图景。

对于这场变革的意义，陈凯的判断是：“这可能是人工智能的最后一个机会，也是最大的一次。”这或许代表了投身于此的研究者们最坚定的决心。

当整个行业仍在“大力出奇迹”的惯性下堆砌数据时，一条“理解优先”的新路径已经清晰显现。它并非对数据量的否定，而是对学习质量的重构——从“模仿动作”到“理解世界”，从“教猴子”到“变孙悟空”。

这场“物理常识”革命的成败，将很大程度上决定具身智能未来十年的走向。而2026年，正站在这个关键的转折点上。

第一视角效率超过真机，深度机智发布全球首个以人类学习范式构建的具身基座模型

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：深度机智发布全球首个具身基座模型以人类学习范式实现效率超越真机要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://www.leiphone.com/category/ai/BLS2oRfBOj5bwGyP.html

人类第一视角物理ai 智能涌现

上一篇：对话邓智航从龙虾智能体到多智能体网络的安全架构演进

下一篇：阿里Wan2.7-Image模型发布图像生成编辑更逼真自然

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。