端侧算力迎来奇点时刻 需求模型与芯片共振解析
端侧算力的真正爆发点,可能并非我们日常使用的手机或电脑,而是那些具备自主行动能力的机器人。
近期,国盛证券通信研究团队发布深度报告,系统梳理了端侧算力在市场需求、模型演进与芯片技术三大维度的最新动态,并明确指出:端侧算力正迎来一个关键的“奇点”时刻。
这一判断源于对行业趋势的深度复盘。两年前,市场普遍预期手机、PC等AI设备的本地算力将快速增长。然而现实是,这些设备上的多数AI功能仍依赖云端处理,端侧算力并未如预期般大规模应用。
所谓端侧算力,指的是在用户终端设备(如智能手机、AI眼镜、个人电脑、智能家居设备及机器人)本地直接进行数据处理的能力,无需完全依赖远程云端服务器。报告总结道:“不应低估云端模型的能力边界”,同时“需求并非凭空产生”。
云端能力过强,传统端侧需求受抑制
过去三年,云端大模型的进化速度远超行业预期。随着“超节点”、“PD分离”等先进云端算力架构的部署,云端模型在性能大幅提升的同时,单位计算成本正加速下降。
以文生图技术为例:三年前,行业尝试在端侧部署Stable Diffusion模型,当时端侧仅能生成逻辑简单的512×512像素图像。如今,云端GPT-4o等模型已能在10秒内生成细节丰富的4K高清图像,能力远超端侧。

原本支撑端侧算力发展的三大理由——数据隐私、低成本、低延迟——在云端技术的强势进化下逐一受到挑战。报告认为,“隐私性”与“低成本”两大需求正被现实证伪,目前真正站得住脚的或许只剩“低延迟”这一核心优势。
但这里所说的低延迟,并非指人类等待AI生成回复的速度。当前,如腾讯混元T1等先进模型,其文本生成速度已达每秒60-80个token,首字响应几乎瞬间完成,早已低于人类的感知阈值。
报告强调的低延迟,特指设备对外部信号进行内生处理的实时性。人脑从视觉感知到运动反应约需180-200毫秒;而一个设备若需将信号上传至云端解析、再传回本地执行,整个流程往往耗时2-5秒以上——若涉及图像等多模态信号,延迟将更为显著。

这正是云端算力难以触及的瓶颈。报告做了一个生动比喻:若将人体神经替换为无线信号,将大脑替换为云端算力,整个处理链路的稳定性和延迟将因通信距离而大幅增加。
需求何在?在于能够自主行动的机器人
锁定“低延迟”这一核心命题后,真正的需求方向变得清晰:让“类人终端”具备更接近人类的实时反应能力。
报告将当前类人终端按智能程度划分为四类:
第一类:摄像头等感知硬件,需处理更多路信号、运行更精细的识别模型。
第二类:工具型机器人(如割草机、泳池清洁机),需识别更多元、复杂的场景。例如,割草机器人若能识别宠物粪便、石块、积雪、落叶等,即可进化为全年可用的“智能庭院机器人”。
第三类:智能汽车,需理解各种异形障碍物及极端复杂的道路环境。
第四类:人形机器人,需实时理解物理世界并与之互动,其输入涵盖视觉、听觉、触觉等多模态信号,输出则是复杂的连贯肢体动作。

报告的核心判断是:本轮端侧算力需求,并非资本市场的单方面想象,而是“客户真实需求增长与行业技术能力进化共同形成的闭环结果”。割草机器人、送餐机器人、无人驾驶汽车的普及,使用户在接纳基础功能后,自然产生了更高的智能化要求。

模型三级跳:从“图像识别”到“未来预测”
需求侧的演进,离不开模型技术的支撑。报告清晰梳理了端侧视觉模型的进化路径。
第一代:YOLO模型
在大模型时代之前,机器视觉主要依赖基于CNN卷积神经网络的YOLO模型。其原理是将图像划分为网格,每个网格负责预测其中的物体。这好比经验丰富的保安快速扫视人群,一旦某个网格内出现“车”或“人”的特征,便立即框选标识。其优点是速度快,但硬伤明显:难以处理不规则物体和3D场景,亦无法理解物体间的逻辑关联。

第二代:Vision Transformer(ViT)
随着大模型思路引入视觉领域,ViT模型突破了性能天花板。它将图像切割为小块,像进行阅读理解一样,分析每个图像碎片与全图其他部分的关系。形象地说,当它识别到左上角的“猫耳朵”时,能通过逻辑联想预判右下角可能存在的“猫尾巴”,即使二者在图像中相距甚远。

ViT模型对算力需求更高,这恰恰打通了端侧算力升级的商业逻辑——更强的本地算力能直接转化为更强的终端智能体验,而非“空有算力却无法提升性能”。
第三代:VLM→VLA→世界模型
智能驾驶的快速发展加速了这一演进历程。
VLM(视觉-语言模型):能理解图像并将其转化为语义信息,相当于“坐在副驾的解说员”,将路况转化为机器可理解的“情报”。
VLA(视觉-语言-动作模型):在VLM基础上加入“动作”维度,直接从视觉感知输出控制指令,例如“方向盘左转10度”、“油门踩下20%”,实现从感知到执行的端到端控制。英伟达近期已发布开源VLA模型Alpamayo。
世界模型:更进一步,引入了预测与推演机制。它在执行动作前,会模拟未来数秒内的多种可能场景,“通过生成未来视频画面来评估风险,从而在无数‘平行宇宙’中选择最安全的路径”。

机器人前沿:GEM模型
相比智能驾驶,让机器人理解并与物理世界互动的难度更高。智能车的核心目标是“避免碰撞”,而机器人则需实时与外界进行物理和语言的交互。
报告认为,GEM(Grounding Embedding Model,接地嵌入模型)是解决这一难题的可能路径。简言之,它能将机器人的感知数据(如摄像头画面、激光雷达点云)与高层指令(如“把蓝色的杯子递给我”)映射到同一特征空间,使机器人即使从未见过某物体,也能通过语义理解完成任务。谷歌的RT-2模型正探索这一方向,试图将图像、动作、语言全部转化为统一的“token”以实现对齐。

报告同时指出,GEM模型当前的主要挑战在于多模态信号的对齐,以及灾难性遗忘、模态鸿沟等问题,“不仅需要模型工程的持续优化,在未来执行层面,也需要专用算力芯片架构的配合”。
芯片竞争:NPU遭遇瓶颈,GPGPU向下渗透
模型需求明确后,芯片成为最终的落地载体。报告详细分析了NPU与GPGPU两条技术路线的优劣。
NPU:从YOLO兴起,面临架构瓶颈
NPU的第一波增长源于YOLO模型的普及——安防摄像头、初级移动机器人大量搭载了NPU芯片。瑞芯微的RK系列凭借高性价比和低功耗成为主流选择,其营业收入从2016年的12.98亿元增长至2025年的44.02亿元。

但进入大模型时代,NPU遇到了架构层面的硬约束。在扫地机器人等低功耗场景下,若要以ViT基座模型替代YOLO,算力需求将接近100 TFLOPS。更关键的是,NPU缺乏CUDA CORE,所有指令需由CPU下发,而在端侧功耗和成本限制下无法使用高性能CPU。这导致一个困境:“一旦在较弱的CPU下挂载过多NPU核,用于AI任务的指令就会占满CPU所有通信带宽,从而导致设备宕机。”
当前有两条破局路径:
高通跃龙IQ10:采用更强的CPU和更大面积的NPU核,并融合部分GPU的任务调度结构。
瑞芯微RK182x:采用3D-DRAM+协处理器双轨并行,通过堆叠封装增加NPU与存储间的带宽,同时将AI推理任务从主芯片剥离,缓解总线拥堵。

GPGPU:继承云端优势,生态壁垒显著
相比NPU,GPGPU向端侧渗透的路径更为顺畅。云端GPGPU本就是全功能芯片,走向端侧只需按需缩减芯片面积和核心数量,无需面临NPU的架构改造难题。
英伟达的智能驾驶业务收入从2024财年的5.36亿美元增长至2026财年的23.49亿美元,其Orin、Thor系列已推出覆盖不同价位和算力段的产品线。

但GPGPU的核心优势不止于硬件,更在于其强大的软件生态。报告指出,大部分端侧模型的预训练和微调都需借助CUDA生态完成,“若在端侧使用GPGPU架构,无论是部署速度还是最终效果,都将远超需要转译的NPU环境”。同时,英伟达在FP4等低精度推理方面已有成熟方案,可直接下放至端侧,而NPU在此领域的追赶则较为艰难。

报告结论是:看好GPGPU架构在端侧市场的渗透率持续提升。但英伟达高昂的售价注定其不会成为唯一选择,这也为高通(凭借通信与计算融合的SOC方案)和国内芯片公司(以性价比切入下沉市场)留出了竞争空间。
投资布局:聚焦芯片、模组、存储三大环节
报告将端侧算力的投资机会分为三个主要环节:
芯片:这是价值量提升最大的环节。需重点关注NPU的迭代与GPGPU的向下渗透。报告特别指出,在端侧设备中,算力成本的占比将显著提升,“这一逻辑与云端基础设施建设类似”。
模组:报告称之为“旱涝保收的中间环节”。端侧算力客户极度分散,模组公司承担着连接上游芯片与下游万千应用场景的桥梁作用。无论哪种芯片路线最终胜出,模组厂商都能从中受益。在IoT时代已实现全球市场份额“东升西落”的中国模组公司,预计不会缺席本轮增长。
存储:3D-DRAM是报告重点提及的新方向。端侧芯片的推理能力同样受内存容量和带宽制约,3D-DRAM通过将DRAM与NPU进行堆叠封装,能在低成本、低功耗的前提下有效提升带宽,满足端侧大模型需求。

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
AMD苏姿丰预测2030年全球每日将有50亿人使用AI
2026年5月19日,AMD AI开发者日在上海盛大开幕。一个备受业界瞩目的焦点是,AMD董事会主席兼首席执行官苏姿丰博士亲临现场并发表主题演讲。本次活动不仅全面呈现了AMD在人工智能领域的最新技术路线图,更深刻揭示了其对于全球AI生态,特别是大中华区市场的战略深耕与长远愿景。 苏姿丰博士在致辞中重
理想L9上市72小时热销 Livis版受青睐对比竞品优势明显
理想汽车全新L9车型自上市以来,市场反响热烈,取得了显著的“开门红”成绩。根据车fans的权威数据,新车上市72小时内,全国授权门店平均每家店收获的新增大定订单数达到20台,门店客流量环比激增30%。尤为关键的是,超过50%的进店咨询都聚焦于L9这款车型。这一市场热度的背后,得益于展车与试驾车资源的
长三角转化医学设施加速创新成果临床应用
自2024年7月通过国家验收以来,转化医学国家重大科技基础设施(上海)正式开启了从大规模建设到高效运行的全新阶段。这座占地11 4万平方米的科研“超级平台”,在短短一年多时间里已释放出巨大效能:它成功支撑了近千项前沿研究项目的开展,推动了一系列创新医疗技术、高端医疗器械、新药及诊断试剂加速实现临床转
小米SU7 GT纽北圈速7分34秒刷新SUV纪录
5月19日,一则重磅消息引爆汽车圈:小米汽车官方正式宣布,旗下高性能SUV车型YU7 GT在被誉为“绿色地狱”的德国纽博格林北环赛道,创造了7分34秒931的惊人圈速,一举刷新了该赛道SUV组别的历史纪录。驾驶这台创纪录战车的,正是小米汽车首席测试车手任周灿。凭借这一卓越成绩,任周灿不仅为小米汽车赢
港股存储板块回调 南方两倍做多海力士重挫13%
市场情绪有时就像南方的天气,说变就变。5月19日,半导体板块遭遇了一轮显著的波动。其中,追踪韩国海力士的南方两倍做多产品跌幅约13%,而同样以两倍杠杆做多三星电子的产品跌幅则超过了11%。视线转回A股,澜起科技当日下跌8%,兆易创新的跌幅也超过了5%。 这样的集体回调,背后往往不是单一因素所致。全球
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

