端侧AI模型发展现状与未来趋势深度解析

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

端侧AI模型发展现状与未来趋势深度解析

热心网友时间：2026-05-16

转载

自2023年起，科技领域的两股核心驱动力变得格外清晰：一边是以大模型为代表的人工智能，另一边则是以具身智能为核心的机器人技术。将两者结合，用AI算法特别是大模型来提升机器人的智能水平，已成为一个顺理成章的趋势。于是，“机器人学习”与“具身大脑”成了行业里热度最高的词汇。

不过，业内对于“具身大脑”的定义并不统一。一个更宽泛的理解是，凡是利用人工智能算法与机器人结合，旨在提升机器人在交互、感知或控制方面能力的，都可以归入这个范畴。从技术源头看，国内专注于机器人模型的厂商大致可以分为几类：有从视觉感知切入的，如穹彻智能、有鹿、若愚科技；有专注于强化学习路径的，例如Physical Intelligence；还有从语言模型出发，拓展到机器人领域的，比如面壁智能、岩芯数智、自变量等。

在如何打造“机器人大脑”这个问题上，不同技术流派路径各异，观点也不尽相同。但过去一年的行业实践揭示了一个有趣的现象：那些出身于研究基础模型的大模型厂商，在向机器人领域落地时，反而显得最为焦虑。

除了市场竞争激烈，一个更本质的困境在于：端侧模型想在机器人上真正用起来，中间还横亘着一道芯片开发的鸿沟。于是，机器人厂商、大模型公司和芯片企业之间，形成了一种微妙的三角拉力关系。

目前看来，这个三角关系似乎陷入了一个负向循环：

首先，端侧模型需要适配专门的芯片，但芯片的研发迭代高度依赖市场规模。当前机器人仍属专业级产品，远未像手机、PC那样走入寻常百姓家，出货量有限，导致专为机器人优化的高性能、低功耗芯片迟迟难以面世。

其次，机器人消费市场的扩大，核心驱动力在于智能水平的飞跃，而这又依赖于AI模型的快速迭代。但模型的进化需要海量、高质量的真实世界交互数据，这反过来又要求模型必须大规模部署在机器人产品上，与用户产生持续互动。

最终，现实很骨感。目前具身视觉语言模型的实际效果，距离消费级产品所需的精度和准确率还有不小差距。机器人智能迭代放缓，出货量难以起色，又进一步影响了芯片的研发投入和成本下降。三者相互牵制，形成了一个“先有鸡还是先有蛋”的经典困局。要打破这个僵局，走入正向增强循环，必须有一方率先取得突破。

那么，破局者会是谁？模型厂商期待芯片厂商能拿出革命性的产品，芯片厂商则希望机器人市场能先爆发以支撑研发，而机器人厂商或许又在等待一个足够智能、能引爆需求的模型出现。

大模型能为机器人做什么？

理想中，大模型在机器人领域扮演的是“大脑”角色，核心价值在于提供强大的泛化能力和复杂任务规划能力。但在当前落地的具体操作中，大模型的作用更多还停留在相对初级的阶段，比如帮助机器人理解并拆解简单的自然语言指令。

具体来看，现状有两个特点：一是机器人大多仍在执行单个、预设的任务，交互层面的进步多于真正的“学习”能力，实现多模态协同任务仍是挑战；二是机器人完成的多数是短期动作（如叠衣服、按下按钮），很少涉及需要大模型进行长链条、上百步规划的复杂任务。

例如，面壁智能的目标就是让机器人能完成更复杂、步骤更长的操作，并提升执行准确率、泛化性和纠错能力。这需要长程规划、工具调用、多模型协同等全方位能力，而这正是大模型厂商的优势所在。相比之下，机器人公司在算法层面的积累可能不如前者深厚，因此通过合作引入专业的端侧模型，成为了一条高效路径。

在泛化性方面，大模型所蕴含的世界知识和常识，本应能极大帮助机器人应对未曾见过的物体或场景。但前沿进展显示，这部分仍处于早期探索阶段。例如，RockAI的Yan架构大模型，其技术路线是将文本、语音、视频及机体参数进行整体对齐后输入模型。而一些视觉语言模型则试图通过提升物理建模能力来增强泛化性，比如让机器人理解物体的重量、操纵新物体。不过业内普遍认为，这些模型的实际效果距离消费级应用的要求尚有距离。

总体而言，大模型的许多潜力在机器人侧尚未完全释放。无论是泛化、规划还是纠错能力，其应用都还比较初步。此前，字节跳动的GR-2通用机器人曾尝试将文生视频能力融入其策略模型，但在让机器人执行具体任务方面，依然在摸索之中。

字节 GR-2 通用机器人

大模型能力未能充分发挥的背后，首要原因是行业尚未找到最适合机器人的统一模型架构。当前有的工作基于多模态大模型，有的基于Diffusion Policy，也有尝试将两者结合分别负责“大脑”和“小脑”的，但远未像自然语言处理领域那样形成类似Transformer的统治性架构。

此外，机器人形态的多样性也带来了挑战。双足、轮式、四足机器人，其运动和控制方式差异巨大。在大脑层面，“向前走”的指令可以统一，但底层的精细控制算法则完全不同。这意味着，并不存在某种“最优”机器人形态能天然加速大模型的设备泛化。目前，“大脑派”与“肢体派”仍在相互磨合，努力打通知识壁垒。

除了架构和形态，最大的难点莫过于数据。模型厂商很难获取到大规模、多元化的机器人交互数据（涵盖视觉、语言、触觉、力控等）。数据匮乏导致训练只能“case by case”，严重限制了模型执行任务的泛化能力，更不用说探索更复杂的场景了。

一个典型的例子是灵巧手操控。要让大模型精准控制五指灵巧手抓取物体，不仅需要输出目标物的三维坐标，还需精确控制每个手指的抓握点位。从视觉感知到坐标判断，再到精细操控，这一流程理论上可行，但以现有模型水平还难以实现。正如RockAI CMO邹佳思所言，目前手部的精细控制仍多交由机器人厂商的底层控制器（“小脑”）处理，大模型核心解决的是对模糊指令的理解问题。

过去指挥机器人需要极其精确的指令，且很多是预先写死的代码。今年世界人工智能大会上一些机器人的直播“翻车”，根本原因就在于它们无法理解人类的自然语言。而端侧模型的价值，正是为了提升机器人对自然语言的理解能力。

“机器人大脑”的三角关系

数据不足的根源，又绕回了机器人尚未实现大规模量产，未能从专业设备转变为消费级产品这个老问题。

回顾特斯拉自动驾驶的演进历程，其最初并非依靠自动驾驶功能吸引用户，而是凭借车辆本身的性能。随着用户基数扩大，产生的海量数据才得以反哺自动驾驶模型的训练，形成正向循环。反观机器人，当前的主要购买者仍是研究机构和特定行业客户，且常常是先订单后生产，真实、多元的用户交互场景严重匮乏。

有业内人士曾指出，破局的关键或许在于能否率先标注出高质量的“第一版”数据。但这谈何容易。机器人数据采集无法像训练文本大模型那样从互联网抓取，必须依靠真机在真实环境中收集，再经过昂贵且繁琐的标注流程，涉及触觉、力反馈等多模态信息，成本极高。

训练方式上也存在挑战。机器人训练依赖真实或高保真仿真环境，在强化学习、系统稳定性等方面的成本远超传统AI模型。目前，学术界和工业界都在积极探索更高效的训练方法。仿真数据虽能部分解决问题，但其真实性始终不及真机数据，要想适配各种设备和场景，需要极高的多样性。

除了数据，算力是另一个关键瓶颈。国内主流大模型厂商虽已开始布局“端侧小模型”，但重心仍在千亿甚至万亿参数的云端大模型上。这些庞然大物需要巨大的算力支持，而机器人搭载的板卡算力通常非常有限。若强行部署，会导致成本、功耗和散热问题难以解决，即便最新的消费级芯片也力有未逮。

因此，云端大模型难以在机器人本体上离线部署，这也正是面壁智能、RockAI等专注于端侧模型的厂商存在的市场空间。如果采用联网调用云端模型的方式，又会引入无法接受的执行延迟。有案例显示，某国产机器人在调用云端模型执行取水任务时，就曾深受延迟困扰。

当然，业内也有观点认为，端侧3B参数规模的模型，在图像理解、自然语言交互等基础能力上，已能满足机器人当前大部分的智能需求。虽然其任务泛化能力不及云端大模型，但提供了一个可行的折中方案。

此外，机器人本体的构型差异并非模型研发的主要障碍。模型厂商更关注两个因素：一是算力环境（如机器人使用的是英伟达Orin、Intel还是ARM芯片），模型需要针对不同芯片进行适配；二是机器人肢体参数（如身高、臂展、关节活动范围），模型指令需与之匹配。这种适配成本通常不高，真正的挑战在于芯片适配。

对于模型厂商，机器人的各类传感器信息和本体参数，都可视作输入的“模态”。只要输入模态不同，就需要进行适配。当前最大的适配成本来自芯片。受限于端侧算力，模型向“极大”和“极小”两个方向发展都困难重重：往大了做，需要天价的资金投入和万卡集群；往小了做，要在手机、机器人等资源受限的终端上高效运行，对模型压缩和优化工程提出了极高要求。

许多从业者对机器人端侧算力的未来持乐观态度，认为其选择空间比手机更大，随着芯片进步，未来千亿模型在端侧落地也非天方夜谭。但现实是，机器人厂商出于续航考虑，普遍倾向于采用低功耗芯片。目前很多机器人仍在使用骁龙6系列芯片，这类芯片出货量巨大，成本低廉，但算力有限。

一个残酷的现实是，人形机器人脱离电源后通常只能工作约一小时，如果搭载高算力GPU板卡，续航可能骤降至20分钟。然而，让端侧模型在低功耗CPU上流畅运行极为困难。以Transformer架构的3B模型为例，在骁龙7系列芯片上几乎无法运行，在骁龙8系列上也需要经过大幅量化和压缩，而这往往会导致模型性能，尤其是多模态能力显著下降。

因此，模型厂商必须在能力、功耗和成本之间艰难权衡。推理优化水平成为关键——能否将模型压缩得足够小、足够快，同时在量化后仍保持可用的性能。有机器人领域从业者透露，这正是许多大模型基座厂商的痛点，也是RockAI、面壁智能等厂商的机会所在。

即便机器人厂商愿意采用高算力芯片，成本问题依然突出。参考手机行业，搭载高端芯片的产品售价不菲。若机器人再叠加高端模型，价格可能令人望而却步，从而限制市场增长。高端芯片要成为市场主流，仍需数年时间。

更有观点指出，当前行业的首要瓶颈可能还不是模型或数据，而是机器人本体自身的成熟度。在硬件本体达到足够的稳定性、可靠性和场景适应能力之前，谈论高级智能或许为时尚早。

如何跳出“死循环”？

显然，机器人大模型的前进不能只靠模型厂商单打独斗，需要机器人厂商、芯片厂商三方合力，共同凿开一条出路。

目前，一些解决方案已经浮现。例如，以智源、智谱为代表的机构提出了“端云协同”的路径：在云端训练大模型，通过知识蒸馏、量化等技术得到轻量化的小模型，再部署到终端。理想汽车已在英伟达板卡上成功部署2B模型，便是例证。这种方式能在保持一定能力的前提下，实现更高效的部署。

另一些厂商，如RockAI，则探索非Transformer架构，使其能在纯CPU或低端混合芯片上运行，以降低算力需求和功耗。由于芯片迭代周期长，存量市场（即基于现有算力满足需求）显得尤为重要。邹佳思表示，其团队已与高通、联发科、英特尔、ARM、华&为等多款芯片完成适配，这正是为了服务那些不愿或不能等待新一代芯片的机器人厂商。

所谓芯片适配，是一项深度优化工作，需要模型厂商与芯片厂商紧密协作，针对特定芯片的计算单元特点，对模型推理框架进行定制化优化，以充分释放硬件算力。

也有观点认为，当前许多端侧模型无法落地，问题不全在硬件或需求，而在于大模型技术本身尚未成熟到能支撑广阔市场的地步。不过，有些任务确实需要芯片突破后才能实现，例如对实时视频流的理解和动作捕捉。现有芯片性能难以让机器人流畅分析连续动作，只能处理单张图片，这限制了其对动态场景的理解。

因此，芯片厂商实现高算力、低功耗的突破至关重要。同时，电池技术的进步以延长续航也不可或缺。但遗憾的是，由于当前机器人市场规模太小，电池厂商缺乏投入研发的动力。有从业者透露，年出货几百台已是行业翘楚，但这个量级对电池巨头而言毫无吸引力。

最终，打破僵局的核心或许还是在于机器人本体能否取得突破，实现更高的稳定性、更广泛的场景适应能力，从而提升出货量。一旦年出货量能达到成千上万的规模，整个产业链的注意力与资源自然会向此倾斜。

值得注意的是，在手机和PC端，端侧模型的竞争已日趋白热化，且头部厂商正走向自研。例如，vivo的云端模型可能基于第三方，但其本地端侧模型已是自研。这对机器人领域是一个启示，也意味着机会：机器人对拟人化交互（语音、视觉）的核心诉求，与手机专注于系统应用打通的需求不同，这为专注机器人场景的模型厂商留下了创业空间。

长远来看，模型、芯片、机器人三方都仍有很长的路要走。面对量产不足、芯片制约、数据匮乏导致的智能提升缓慢这一闭环难题，亟需三方积极靠拢，并有一方敢于率先投入，打破僵局。这场“机器人大脑”的进化竞赛，不仅是技术之战，更是生态与耐心的较量。

来源:https://www.leiphone.com/category/ai/ATpD7GIzTjyxsxDP.html

上一篇：思必驰俞凯谈分布式大模型如何推动AGI智能体发展

下一篇：驿心科技与Hammerspace合作为中国提供大规模AI存储方案