当前位置: 首页
AI
端侧AI模型发展现状与未来趋势深度解析

端侧AI模型发展现状与未来趋势深度解析

热心网友 时间:2026-05-16
转载

自2023年起,科技领域的两股核心驱动力变得格外清晰:一边是以大模型为代表的人工智能,另一边则是以具身智能为核心的机器人技术。将两者结合,用AI算法特别是大模型来提升机器人的智能水平,已成为一个顺理成章的趋势。于是,“机器人学习”与“具身大脑”成了行业里热度最高的词汇。

不过,业内对于“具身大脑”的定义并不统一。一个更宽泛的理解是,凡是利用人工智能算法与机器人结合,旨在提升机器人在交互、感知或控制方面能力的,都可以归入这个范畴。从技术源头看,国内专注于机器人模型的厂商大致可以分为几类:有从视觉感知切入的,如穹彻智能、有鹿、若愚科技;有专注于强化学习路径的,例如Physical Intelligence;还有从语言模型出发,拓展到机器人领域的,比如面壁智能、岩芯数智、自变量等。

在如何打造“机器人大脑”这个问题上,不同技术流派路径各异,观点也不尽相同。但过去一年的行业实践揭示了一个有趣的现象:那些出身于研究基础模型的大模型厂商,在向机器人领域落地时,反而显得最为焦虑。

除了市场竞争激烈,一个更本质的困境在于:端侧模型想在机器人上真正用起来,中间还横亘着一道芯片开发的鸿沟。于是,机器人厂商、大模型公司和芯片企业之间,形成了一种微妙的三角拉力关系。

目前看来,这个三角关系似乎陷入了一个负向循环:

首先,端侧模型需要适配专门的芯片,但芯片的研发迭代高度依赖市场规模。当前机器人仍属专业级产品,远未像手机、PC那样走入寻常百姓家,出货量有限,导致专为机器人优化的高性能、低功耗芯片迟迟难以面世。

其次,机器人消费市场的扩大,核心驱动力在于智能水平的飞跃,而这又依赖于AI模型的快速迭代。但模型的进化需要海量、高质量的真实世界交互数据,这反过来又要求模型必须大规模部署在机器人产品上,与用户产生持续互动。

最终,现实很骨感。目前具身视觉语言模型的实际效果,距离消费级产品所需的精度和准确率还有不小差距。机器人智能迭代放缓,出货量难以起色,又进一步影响了芯片的研发投入和成本下降。三者相互牵制,形成了一个“先有鸡还是先有蛋”的经典困局。要打破这个僵局,走入正向增强循环,必须有一方率先取得突破。

那么,破局者会是谁?模型厂商期待芯片厂商能拿出革命性的产品,芯片厂商则希望机器人市场能先爆发以支撑研发,而机器人厂商或许又在等待一个足够智能、能引爆需求的模型出现。

大模型能为机器人做什么?

理想中,大模型在机器人领域扮演的是“大脑”角色,核心价值在于提供强大的泛化能力和复杂任务规划能力。但在当前落地的具体操作中,大模型的作用更多还停留在相对初级的阶段,比如帮助机器人理解并拆解简单的自然语言指令。

具体来看,现状有两个特点:一是机器人大多仍在执行单个、预设的任务,交互层面的进步多于真正的“学习”能力,实现多模态协同任务仍是挑战;二是机器人完成的多数是短期动作(如叠衣服、按下按钮),很少涉及需要大模型进行长链条、上百步规划的复杂任务。

例如,面壁智能的目标就是让机器人能完成更复杂、步骤更长的操作,并提升执行准确率、泛化性和纠错能力。这需要长程规划、工具调用、多模型协同等全方位能力,而这正是大模型厂商的优势所在。相比之下,机器人公司在算法层面的积累可能不如前者深厚,因此通过合作引入专业的端侧模型,成为了一条高效路径。

在泛化性方面,大模型所蕴含的世界知识和常识,本应能极大帮助机器人应对未曾见过的物体或场景。但前沿进展显示,这部分仍处于早期探索阶段。例如,RockAI的Yan架构大模型,其技术路线是将文本、语音、视频及机体参数进行整体对齐后输入模型。而一些视觉语言模型则试图通过提升物理建模能力来增强泛化性,比如让机器人理解物体的重量、操纵新物体。不过业内普遍认为,这些模型的实际效果距离消费级应用的要求尚有距离。

总体而言,大模型的许多潜力在机器人侧尚未完全释放。无论是泛化、规划还是纠错能力,其应用都还比较初步。此前,字节跳动的GR-2通用机器人曾尝试将文生视频能力融入其策略模型,但在让机器人执行具体任务方面,依然在摸索之中。

字节 GR-2 通用机器人

大模型能力未能充分发挥的背后,首要原因是行业尚未找到最适合机器人的统一模型架构。当前有的工作基于多模态大模型,有的基于Diffusion Policy,也有尝试将两者结合分别负责“大脑”和“小脑”的,但远未像自然语言处理领域那样形成类似Transformer的统治性架构。

此外,机器人形态的多样性也带来了挑战。双足、轮式、四足机器人,其运动和控制方式差异巨大。在大脑层面,“向前走”的指令可以统一,但底层的精细控制算法则完全不同。这意味着,并不存在某种“最优”机器人形态能天然加速大模型的设备泛化。目前,“大脑派”与“肢体派”仍在相互磨合,努力打通知识壁垒。

除了架构和形态,最大的难点莫过于数据。模型厂商很难获取到大规模、多元化的机器人交互数据(涵盖视觉、语言、触觉、力控等)。数据匮乏导致训练只能“case by case”,严重限制了模型执行任务的泛化能力,更不用说探索更复杂的场景了。

一个典型的例子是灵巧手操控。要让大模型精准控制五指灵巧手抓取物体,不仅需要输出目标物的三维坐标,还需精确控制每个手指的抓握点位。从视觉感知到坐标判断,再到精细操控,这一流程理论上可行,但以现有模型水平还难以实现。正如RockAI CMO邹佳思所言,目前手部的精细控制仍多交由机器人厂商的底层控制器(“小脑”)处理,大模型核心解决的是对模糊指令的理解问题。

过去指挥机器人需要极其精确的指令,且很多是预先写死的代码。今年世界人工智能大会上一些机器人的直播“翻车”,根本原因就在于它们无法理解人类的自然语言。而端侧模型的价值,正是为了提升机器人对自然语言的理解能力。

“机器人大脑”的三角关系

数据不足的根源,又绕回了机器人尚未实现大规模量产,未能从专业设备转变为消费级产品这个老问题。

回顾特斯拉自动驾驶的演进历程,其最初并非依靠自动驾驶功能吸引用户,而是凭借车辆本身的性能。随着用户基数扩大,产生的海量数据才得以反哺自动驾驶模型的训练,形成正向循环。反观机器人,当前的主要购买者仍是研究机构和特定行业客户,且常常是先订单后生产,真实、多元的用户交互场景严重匮乏。

有业内人士曾指出,破局的关键或许在于能否率先标注出高质量的“第一版”数据。但这谈何容易。机器人数据采集无法像训练文本大模型那样从互联网抓取,必须依靠真机在真实环境中收集,再经过昂贵且繁琐的标注流程,涉及触觉、力反馈等多模态信息,成本极高。

训练方式上也存在挑战。机器人训练依赖真实或高保真仿真环境,在强化学习、系统稳定性等方面的成本远超传统AI模型。目前,学术界和工业界都在积极探索更高效的训练方法。仿真数据虽能部分解决问题,但其真实性始终不及真机数据,要想适配各种设备和场景,需要极高的多样性。

除了数据,算力是另一个关键瓶颈。国内主流大模型厂商虽已开始布局“端侧小模型”,但重心仍在千亿甚至万亿参数的云端大模型上。这些庞然大物需要巨大的算力支持,而机器人搭载的板卡算力通常非常有限。若强行部署,会导致成本、功耗和散热问题难以解决,即便最新的消费级芯片也力有未逮。

因此,云端大模型难以在机器人本体上离线部署,这也正是面壁智能、RockAI等专注于端侧模型的厂商存在的市场空间。如果采用联网调用云端模型的方式,又会引入无法接受的执行延迟。有案例显示,某国产机器人在调用云端模型执行取水任务时,就曾深受延迟困扰。

当然,业内也有观点认为,端侧3B参数规模的模型,在图像理解、自然语言交互等基础能力上,已能满足机器人当前大部分的智能需求。虽然其任务泛化能力不及云端大模型,但提供了一个可行的折中方案。

此外,机器人本体的构型差异并非模型研发的主要障碍。模型厂商更关注两个因素:一是算力环境(如机器人使用的是英伟达Orin、Intel还是ARM芯片),模型需要针对不同芯片进行适配;二是机器人肢体参数(如身高、臂展、关节活动范围),模型指令需与之匹配。这种适配成本通常不高,真正的挑战在于芯片适配。

对于模型厂商,机器人的各类传感器信息和本体参数,都可视作输入的“模态”。只要输入模态不同,就需要进行适配。当前最大的适配成本来自芯片。受限于端侧算力,模型向“极大”和“极小”两个方向发展都困难重重:往大了做,需要天价的资金投入和万卡集群;往小了做,要在手机、机器人等资源受限的终端上高效运行,对模型压缩和优化工程提出了极高要求。

许多从业者对机器人端侧算力的未来持乐观态度,认为其选择空间比手机更大,随着芯片进步,未来千亿模型在端侧落地也非天方夜谭。但现实是,机器人厂商出于续航考虑,普遍倾向于采用低功耗芯片。目前很多机器人仍在使用骁龙6系列芯片,这类芯片出货量巨大,成本低廉,但算力有限。

一个残酷的现实是,人形机器人脱离电源后通常只能工作约一小时,如果搭载高算力GPU板卡,续航可能骤降至20分钟。然而,让端侧模型在低功耗CPU上流畅运行极为困难。以Transformer架构的3B模型为例,在骁龙7系列芯片上几乎无法运行,在骁龙8系列上也需要经过大幅量化和压缩,而这往往会导致模型性能,尤其是多模态能力显著下降。

因此,模型厂商必须在能力、功耗和成本之间艰难权衡。推理优化水平成为关键——能否将模型压缩得足够小、足够快,同时在量化后仍保持可用的性能。有机器人领域从业者透露,这正是许多大模型基座厂商的痛点,也是RockAI、面壁智能等厂商的机会所在。

即便机器人厂商愿意采用高算力芯片,成本问题依然突出。参考手机行业,搭载高端芯片的产品售价不菲。若机器人再叠加高端模型,价格可能令人望而却步,从而限制市场增长。高端芯片要成为市场主流,仍需数年时间。

更有观点指出,当前行业的首要瓶颈可能还不是模型或数据,而是机器人本体自身的成熟度。在硬件本体达到足够的稳定性、可靠性和场景适应能力之前,谈论高级智能或许为时尚早。

如何跳出“死循环”?

显然,机器人大模型的前进不能只靠模型厂商单打独斗,需要机器人厂商、芯片厂商三方合力,共同凿开一条出路。

目前,一些解决方案已经浮现。例如,以智源、智谱为代表的机构提出了“端云协同”的路径:在云端训练大模型,通过知识蒸馏、量化等技术得到轻量化的小模型,再部署到终端。理想汽车已在英伟达板卡上成功部署2B模型,便是例证。这种方式能在保持一定能力的前提下,实现更高效的部署。

另一些厂商,如RockAI,则探索非Transformer架构,使其能在纯CPU或低端混合芯片上运行,以降低算力需求和功耗。由于芯片迭代周期长,存量市场(即基于现有算力满足需求)显得尤为重要。邹佳思表示,其团队已与高通、联发科、英特尔、ARM、华&为等多款芯片完成适配,这正是为了服务那些不愿或不能等待新一代芯片的机器人厂商。

所谓芯片适配,是一项深度优化工作,需要模型厂商与芯片厂商紧密协作,针对特定芯片的计算单元特点,对模型推理框架进行定制化优化,以充分释放硬件算力。

也有观点认为,当前许多端侧模型无法落地,问题不全在硬件或需求,而在于大模型技术本身尚未成熟到能支撑广阔市场的地步。不过,有些任务确实需要芯片突破后才能实现,例如对实时视频流的理解和动作捕捉。现有芯片性能难以让机器人流畅分析连续动作,只能处理单张图片,这限制了其对动态场景的理解。

因此,芯片厂商实现高算力、低功耗的突破至关重要。同时,电池技术的进步以延长续航也不可或缺。但遗憾的是,由于当前机器人市场规模太小,电池厂商缺乏投入研发的动力。有从业者透露,年出货几百台已是行业翘楚,但这个量级对电池巨头而言毫无吸引力。

最终,打破僵局的核心或许还是在于机器人本体能否取得突破,实现更高的稳定性、更广泛的场景适应能力,从而提升出货量。一旦年出货量能达到成千上万的规模,整个产业链的注意力与资源自然会向此倾斜。

值得注意的是,在手机和PC端,端侧模型的竞争已日趋白热化,且头部厂商正走向自研。例如,vivo的云端模型可能基于第三方,但其本地端侧模型已是自研。这对机器人领域是一个启示,也意味着机会:机器人对拟人化交互(语音、视觉)的核心诉求,与手机专注于系统应用打通的需求不同,这为专注机器人场景的模型厂商留下了创业空间。

长远来看,模型、芯片、机器人三方都仍有很长的路要走。面对量产不足、芯片制约、数据匮乏导致的智能提升缓慢这一闭环难题,亟需三方积极靠拢,并有一方敢于率先投入,打破僵局。这场“机器人大脑”的进化竞赛,不仅是技术之战,更是生态与耐心的较量。

来源:https://www.leiphone.com/category/ai/ATpD7GIzTjyxsxDP.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
哈弗猛龙PLUS七座四驱版上市 起售价16.18万元

哈弗猛龙PLUS七座四驱版上市 起售价16.18万元

哈弗猛龙PLUS中型方盒子SUV正式上市,限时售价16 18万元起。新车车身尺寸宽大,轴距2850mm,提供五座和七座布局,后两排可纯平放倒,后备厢最大容积达1549L。其搭载第二代Hi4智能电四驱系统,综合功率330kW,零百加速5 8秒,并提供最长255km的纯电续航。车内配备15 6英寸大屏、

时间:2026-05-16 11:17
黄仁勋北京街头同款蜜桃四季春蜜雪冰城推出限定专区

黄仁勋北京街头同款蜜桃四季春蜜雪冰城推出限定专区

英伟达CEO黄仁勋在北京街头购买蜜雪冰城饮品的举动,迅速演变为一场品牌营销事件。蜜雪冰城官方不仅在社交媒体上积极互动,确认“同款”身份,更在其点单小程序中火速上线了“大佬同款”专区,主推售价7元起的蜜桃四季春果茶。这一系列操作展示了品牌对热点事件的快速捕捉和营销转化能力,成功将科技界人物的影响力引流

时间:2026-05-16 11:17
光帆AI穿戴设备开售:耳机手表融合的全感知交互体验

光帆AI穿戴设备开售:耳机手表融合的全感知交互体验

光帆科技近日正式推出了其首款AI全感穿戴设备,该产品由AI全感耳机与AI手表组合而成,并同步发售了获得《三体》IP官方授权的联名款。设备搭载自研AIOS系统,主打全感知、主动式AI与硬核可玩三大特性,旨在为用户提供下一代沉浸式交互体验。通过耳机与手表的协同,它试图整合多模态感知能力,让AI服务更主

时间:2026-05-16 11:16
乐道L80大五座SUV上市 舍弃第三排打造越级空间与智能座舱

乐道L80大五座SUV上市 舍弃第三排打造越级空间与智能座舱

乐道汽车推出全新大五座纯电SUVL80,起售价15 68万元(租电方案)。新车舍弃第三排,轴距达3110mm,打造出越级第二排空间与灵活储物能力,配备240升前备舱与最大2600升后备厢。座舱采用分层设计,配备多屏交互、5纳米神玑芯片及城区领航换电功能。底盘搭载空气悬架与4D舒适领航,安全方面标配

时间:2026-05-16 11:16
中加农食产品检疫合作升级 保障双边贸易安全与质量

中加农食产品检疫合作升级 保障双边贸易安全与质量

中国海关总署与加拿大食品检验署近日举行高层会晤,重点围绕落实两国领导人共识、保障农食产品检疫安全及深化合作等议题交换意见。双方同意加强技术交流与信息共享,以提升贸易透明度与可靠性,并探讨推动检疫标准互认,旨在简化流程、促进双边农食产品贸易增长,为消费者提供更安全的食品保障。

时间:2026-05-16 11:16
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程