具身智能的 Scaling Law 已跨过起跑线

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

具身智能的 Scaling Law 已跨过起跑线

热心网友时间：2026-05-16

转载

不久前，首届“人形机器人半程马拉松”在北京亦庄成功举办，为当前备受关注的具身智能领域再添一把火。

这场汇聚了20支顶尖队伍的“钢铁生命竞赛”，将以往多局限于实验室演示的人形机器人技术，推向了真实复杂场景进行综合考验。最终，30%的完赛率（6支队伍完赛）既带来了突破的喜悦，也引发了行业更深层的思考：在具身智能的繁荣景象背后，是否存在发展泡沫？

针对这一问题，千寻智能具身智能部负责人解浚源分享了他对行业“规模定律”（Scaling Law）的深刻洞察。他指出，机器人领域目前仍处于规模定律的极早期探索阶段。尽管赛道投资热度高涨，但相较于参数规模动辄千亿、万亿的大模型公司，无论是企业体量还是市场估值都尚处低位。当前制约发展的核心瓶颈，并非算力或资本投入，而是硬件迭代的客观周期——制造稳定可靠的量产机器人、管理大规模数据采集工厂，这些属于精密制造业范畴，其发展节奏自然比纯软件领域更慢。但他同时强调，依托中国全球领先的供应链体系，产业规模实现每年一个数量级的跃升是完全可期的。

就在上个月，解浚源正式宣布加入具身智能创业公司千寻智能，全面负责具身大模型的研发工作。这位在深度学习框架与系统领域深耕十余年的专家，曾任职亚马逊资深科学家，是知名开源框架MXNet的核心开发者之一，随后又加入字节跳动应用机器学习部门。他的这次重要跨界，源于一个清晰的行业判断：机器人技术快速爆发的临界点即将到来，他不想错过这个历史性机遇。

跨界入局具身智能

从计算机视觉到深度学习框架，再到大模型与如今的具身智能，解浚源的职业生涯堪称一部精彩的“跨界演进史”。博士期间专攻CV算法的他，因对工程实践抱有浓厚兴趣，深度参与了MXNet框架的开发与架构设计，并因此在博士三年级选择休学，加入亚马逊AWS团队。此后，他在字节跳动广泛涉猎了推荐系统、联邦学习、AI芯片乃至大模型ToB业务。

谈及最终踏入需要与物理世界深度交互的机器人领域，解浚源提到了一个关键契机。今年初，他与同行交流时看到了Physical Intelligence公司展示的机器人操作柔性物体（如叠衣服、整理纸箱）的演示视频，这让他感到“眼前一亮”。

“过去的机器人动作往往显得僵硬，能处理的任务类型非常有限，主要针对杯子这类刚性物体，”他解释道，“而PI的演示展现了机器人处理可形变物体的复杂能力，这标志着一个巨大的技术飞跃。”这促使他深入研究其背后的视觉-语言-动作（VLA）等关键技术。他发现，端到端的VLA技术路径已经日益明确，机器人正走上类似大模型从GPT-2到GPT-3/4的演进道路，目前虽处于规模定律的早期，但已展现出巨大的应用潜力。“既然爆发的时刻即将来临，我不想错过。”他坚定地表示。

在决定加入该赛道后，解浚源考察了多家业内公司，最终选择千寻智能，源于团队能力的完美互补与发展理念的高度契合。目前，他带领具身智能部，负责机器学习相关的算法、系统与平台建设。团队中，联合创始人韩峰涛拥有丰富的机器人行业创业与产业化经验，而首席科学家高阳则在前沿算法研究方向把握大局，解浚源自身积累的大厂工程化经验则侧重于技术的规模化落地与实践。

面对多次跨界，如何快速适应新领域？解浚源认为，底层框架与系统的经验是高度相通的。“不管是CV、搜索推荐广告，还是大模型、机器人，都要用到AI系统和框架，这让我切换业务赛道时比较顺畅。”加入千寻后，他迅速梳理并重建了算法工程的基础设施，将擅长的并行计算、算子优化等工程经验直接应用于新场景。

在具体业务攻坚上，他依靠对数据的敏锐直觉和深度理解来解决问题。他举了一个实例：在早期让机械臂夹取电池的项目中，夹爪总是因插入过浅而磕碰失败。他分析发现，数据采集时由于操作员过于熟练，常从极限位置直接夹取。于是，他要求采集数据时“把动作弧线拉大”，让机械臂从稍远处开始动作，留出足够的对准空间。模型学习到这一模式后，问题便迎刃而解。当然，对于机器人动力学等跨领域专业知识，他也在持续学习和夯实基础。

技术路线已收敛至VLA

当前，业内对具身大模型的技术路径存在多种讨论。但在解浚源看来，主流方向其实已经收敛。“大方向上比较确定为VLA（视觉-语言-动作）路线，接下来就是进入规模扩展（Scaling）的关键阶段。”他类比道，这类似于自动驾驶技术从过去基于规则的硬编码系统，转向端到端模仿学习后带来的性能飞跃。大模型的发展历程也已证明，摒弃过多人为规则、采用端到端训练后，模型自主学习涌现的能力往往超越精心设计的传统方法。

“具身智能的发展逻辑也是如此，”他总结道，“一旦端到端的VLA路线被证明具备显著优势，技术路线就会快速收敛。因为路径走通之后，就没有理由再回头。”

那么，当前最大的挑战是什么？答案是数据。

“高质量、多样化的数据采集是这轮机器人技术革命最核心的难点。”解浚源明确指出，这远比传统的AI数据标注复杂得多，因为它深度涉及物理世界。你需要真实的机器人硬件、专业的数据采集员，更需要管理好整个软硬件结合的供应链体系，以实现高效、低成本且多样化的数据采集。

“数据的多样化至关重要。”他进一步阐释，如果只是机械地重复标准动作，采集再多数据也意义有限，反而会导致数据效率下降，陷入边际收益递减的困境。真正的难点在于，如何在规模扩张的同时，系统化、可量化地实现动作的多样性，这需要极其精细的流程设计与管理能力。

如此高度工程化的数据采集体系，何时能见到显著成果？解浚源的判断是，机器人数据规模每提升一个数量级，其性能都会有肉眼可见的进步——无论是操作简单物体的流畅度与成功率，还是能够执行的任务数量和复杂度。他预计，未来一至三年，我们将看到机器人从固定工位的单一操作，逐步走向更开放的空间执行复合任务，并能将人类发出的复杂自然语言指令，自动拆解为可执行的步骤序列。

“现在最关键的是，如何在硬件客观周期的制约下，尽可能快地把数据与机器人的规模做起来。速度不能太慢，慢了就会在竞争中落后。”他强调。

谈及千寻智能近期展示的VLA Spirit v1模型在叠衣服任务上的出色表现，解浚源指出了背后的工程细节：他们对任务成功率要求极高，才能实现“一镜到底”连续叠好三件衣物；其中快速“甩平”衣服的动作，需要精确控制高速运动下的惯性，颇具挑战性。这些细节的攻克，体现的是整套工业化数据采集、模型训练与快速迭代管道（pipeline）的综合能力。

“VLA技术路线本身潜力巨大，开源的视觉基础模型也很强大，所以让机器人做出些漂亮的演示动作不算特别难。”他坦言，“更具挑战的是实现工业化迭代，解决落地过程中成千上万个细节问题，把模型在真实场景下的成功率从50%稳步提升到99%以上。这才是工程化落地的核心能力与壁垒所在。”

关于商业化落地场景，解浚源给出了短、中、长期的三阶段展望：短期（一两年内）将聚焦于工厂特定场景的工程化落地与可靠性验证；中期（三到五年）更大的市场机会在于服务业，如仓储物流、商超补货、酒店服务等；长期（十年愿景）则是让机器人进入家庭，成为真正的个人生活与工作助手。

具身智能的规模定律

在技术路线上，解浚源旗帜鲜明地属于“真机数据派”，对过度依赖仿真（Simulation）持谨慎态度。千寻智能也仅将仿真作为极小范围的辅助验证工具。这主要基于三点核心考量：

首先，柔性物体与复杂接触的物理仿真本身就是巨大难题。高精度模拟一件衣服的形变与摩擦，其计算成本和工程复杂度可能远超直接用真机采集数据。而仅能模拟刚体运动的仿真器，又无法覆盖现实世界中大量的非刚性物体交互场景。

其次，仿真能带来的知识增益上限，不会超过投入其中的巨大工程量。本质上是用大量开发人员的精力去替代数据采集员，这个“兑换比”在商业上很可能不划算。

最后，也是关键一点，在于中美不同的成本结构。在美国，高端显卡（GPU）相对便宜，但在中国，其价格非常昂贵。一块H100显卡售价超过20万元，而一台量产机器人的成本远低于此。当机器人生产规模上量后，其边际成本优势会更加明显。用昂贵的显卡资源大量做仿真，相当于放弃了中国在成熟供应链、熟练工程师和规模化制造方面的独特优势。

有人质疑，真机数据采集难以像仿真那样近乎无限地快速扩展，这是否违背了Scaling Law？解浚源对此并不认同。

他认为，真机量产与数据工厂的规模化并非无法实现，只是需要遵循硬件发展的客观时间周期。凭借中国强大的供应链能力，生产一万台机器人并非难事，且其总成本可能远低于购买一万块H100显卡。目前，头部AI公司建设万卡集群可能只需数月，但搭建起万台机器人的高效数据工厂则需要更长的周期。这源于硬件设计、生产、调试的客观规律，无法单纯靠资本无限加速。

“但循序渐进、阶梯式上升是完全可行的，”他描绘了清晰的路线图，“今年达到几百台，明年上千台，后年或许就能突破一万台。”此外，机器人硬件成本主要是物料和生产成本，不存在像高端显卡那样极高的技术垄断利润率，因此在大规模推广至各类场景时更具成本优势。

那么，机器人领域的Scaling Law，与大模型有何根本不同？解浚源指出了两个核心区别：数据壁垒与数据飞轮效应。

大模型领域缺乏真正的数据壁垒。其预训练数据多来自公开网络，大家获取的源头相似；而高质量的人工标注数据一旦被用于训练并发布模型，就很容易被竞争对手以“模型蒸馏”等方式低成本获取。这有时导致先发者可能反而处于劣势。

“机器人数据则完全不同，”他强调，“所有数据都是私有的、通过自家机器人针对性采集的物理交互数据。这些数据别人拿不走，竞争对手只能拿到最终的模型。而没有持续的、场景化的数据输入，仅凭一个静态模型无法持续迭代优化。因此，数据对大模型可能是‘包袱’（存储与成本），对具身智能却是坚实的竞争‘壁垒’。”

此外，大模型目前难以形成有效的“数据飞轮”——即利用海量用户交互数据来闭环、自动地优化模型。而机器人在具体场景落地后，可以在提供服务（同时产生盈利）的过程中，持续收集新的场景数据，用于迭代和升级模型，从而形成“越用越强、越强越用”的正向循环。这种“网络效应”和“数据飞轮”，正是互联网商业模式成功的关键，也是机器人相比大模型在商业潜力上更具想象力的地方。

当然，高度的数据壁垒是否会阻碍整个行业的协同发展？解浚源认为不会。开源数据集的规模通常太小，仅适用于学术研究。而工业落地所需的海量、高质量数据规模，并非需要全行业合力才能达到。“一家领先的公司通过部署上万台机器人，就足以构建起足够的数据壁垒，并独立承担相关的研发与采集成本。”他表示。

最后，他再次回到Scaling Law的视角进行总结：具身智能与大模型的共同点是都遵循规模扩展定律；核心区别在于，具身智能正处在这一定律非常早期的爆发前夜，犹如旭日初升，潜力无限；而大模型在现有硬件算力条件下，已接近当前发展阶段性能提升的瓶颈期，可能需要等待下一次硬件革命（如量子计算、新架构芯片）才能实现下一个数量级的跨越。

“如果相信Scaling Law，”解浚源总结道，“就会相信具身智能性能进步的空间一定非常巨大。我们现在所看到的进展和演示，可能只是冰山刚刚露出水面的一角，水下蕴藏着更为广阔的产业未来。”

来源:https://www.leiphone.com/category/ai/ajFAPjznpwXmPNZt.html

上一篇：荷兰邮轮汉坦病毒疫情船员隔离观察六周

下一篇： PixVerse V5上线首日用户破百万跻身AI视频生成第一梯队