端侧算力迎来奇点时刻需求模型与芯片共振解析

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

科技数码

端侧算力迎来奇点时刻需求模型与芯片共振解析

热心网友时间：2026-05-19

转载

端侧算力的真正爆发点，可能并非我们日常使用的手机或电脑，而是那些具备自主行动能力的机器人。

近期，国盛证券通信研究团队发布深度报告，系统梳理了端侧算力在市场需求、模型演进与芯片技术三大维度的最新动态，并明确指出：端侧算力正迎来一个关键的“奇点”时刻。

这一判断源于对行业趋势的深度复盘。两年前，市场普遍预期手机、PC等AI设备的本地算力将快速增长。然而现实是，这些设备上的多数AI功能仍依赖云端处理，端侧算力并未如预期般大规模应用。

所谓端侧算力，指的是在用户终端设备（如智能手机、AI眼镜、个人电脑、智能家居设备及机器人）本地直接进行数据处理的能力，无需完全依赖远程云端服务器。报告总结道：“不应低估云端模型的能力边界”，同时“需求并非凭空产生”。

云端能力过强，传统端侧需求受抑制

过去三年，云端大模型的进化速度远超行业预期。随着“超节点”、“PD分离”等先进云端算力架构的部署，云端模型在性能大幅提升的同时，单位计算成本正加速下降。

以文生图技术为例：三年前，行业尝试在端侧部署Stable Diffusion模型，当时端侧仅能生成逻辑简单的512×512像素图像。如今，云端GPT-4o等模型已能在10秒内生成细节丰富的4K高清图像，能力远超端侧。

原本支撑端侧算力发展的三大理由——数据隐私、低成本、低延迟——在云端技术的强势进化下逐一受到挑战。报告认为，“隐私性”与“低成本”两大需求正被现实证伪，目前真正站得住脚的或许只剩“低延迟”这一核心优势。

但这里所说的低延迟，并非指人类等待AI生成回复的速度。当前，如腾讯混元T1等先进模型，其文本生成速度已达每秒60-80个token，首字响应几乎瞬间完成，早已低于人类的感知阈值。

报告强调的低延迟，特指设备对外部信号进行内生处理的实时性。人脑从视觉感知到运动反应约需180-200毫秒；而一个设备若需将信号上传至云端解析、再传回本地执行，整个流程往往耗时2-5秒以上——若涉及图像等多模态信号，延迟将更为显著。

这正是云端算力难以触及的瓶颈。报告做了一个生动比喻：若将人体神经替换为无线信号，将大脑替换为云端算力，整个处理链路的稳定性和延迟将因通信距离而大幅增加。

需求何在？在于能够自主行动的机器人

锁定“低延迟”这一核心命题后，真正的需求方向变得清晰：让“类人终端”具备更接近人类的实时反应能力。

报告将当前类人终端按智能程度划分为四类：

第一类：摄像头等感知硬件，需处理更多路信号、运行更精细的识别模型。

第二类：工具型机器人（如割草机、泳池清洁机），需识别更多元、复杂的场景。例如，割草机器人若能识别宠物粪便、石块、积雪、落叶等，即可进化为全年可用的“智能庭院机器人”。

第三类：智能汽车，需理解各种异形障碍物及极端复杂的道路环境。

第四类：人形机器人，需实时理解物理世界并与之互动，其输入涵盖视觉、听觉、触觉等多模态信号，输出则是复杂的连贯肢体动作。

报告的核心判断是：本轮端侧算力需求，并非资本市场的单方面想象，而是“客户真实需求增长与行业技术能力进化共同形成的闭环结果”。割草机器人、送餐机器人、无人驾驶汽车的普及，使用户在接纳基础功能后，自然产生了更高的智能化要求。

模型三级跳：从“图像识别”到“未来预测”

需求侧的演进，离不开模型技术的支撑。报告清晰梳理了端侧视觉模型的进化路径。

第一代：YOLO模型

在大模型时代之前，机器视觉主要依赖基于CNN卷积神经网络的YOLO模型。其原理是将图像划分为网格，每个网格负责预测其中的物体。这好比经验丰富的保安快速扫视人群，一旦某个网格内出现“车”或“人”的特征，便立即框选标识。其优点是速度快，但硬伤明显：难以处理不规则物体和3D场景，亦无法理解物体间的逻辑关联。

第二代：Vision Transformer（ViT）

随着大模型思路引入视觉领域，ViT模型突破了性能天花板。它将图像切割为小块，像进行阅读理解一样，分析每个图像碎片与全图其他部分的关系。形象地说，当它识别到左上角的“猫耳朵”时，能通过逻辑联想预判右下角可能存在的“猫尾巴”，即使二者在图像中相距甚远。

ViT模型对算力需求更高，这恰恰打通了端侧算力升级的商业逻辑——更强的本地算力能直接转化为更强的终端智能体验，而非“空有算力却无法提升性能”。

第三代：VLM→VLA→世界模型

智能驾驶的快速发展加速了这一演进历程。

VLM（视觉-语言模型）：能理解图像并将其转化为语义信息，相当于“坐在副驾的解说员”，将路况转化为机器可理解的“情报”。

VLA（视觉-语言-动作模型）：在VLM基础上加入“动作”维度，直接从视觉感知输出控制指令，例如“方向盘左转10度”、“油门踩下20%”，实现从感知到执行的端到端控制。英伟达近期已发布开源VLA模型Alpamayo。

世界模型：更进一步，引入了预测与推演机制。它在执行动作前，会模拟未来数秒内的多种可能场景，“通过生成未来视频画面来评估风险，从而在无数‘平行宇宙’中选择最安全的路径”。

机器人前沿：GEM模型

相比智能驾驶，让机器人理解并与物理世界互动的难度更高。智能车的核心目标是“避免碰撞”，而机器人则需实时与外界进行物理和语言的交互。

报告认为，GEM（Grounding Embedding Model，接地嵌入模型）是解决这一难题的可能路径。简言之，它能将机器人的感知数据（如摄像头画面、激光雷达点云）与高层指令（如“把蓝色的杯子递给我”）映射到同一特征空间，使机器人即使从未见过某物体，也能通过语义理解完成任务。谷歌的RT-2模型正探索这一方向，试图将图像、动作、语言全部转化为统一的“token”以实现对齐。

报告同时指出，GEM模型当前的主要挑战在于多模态信号的对齐，以及灾难性遗忘、模态鸿沟等问题，“不仅需要模型工程的持续优化，在未来执行层面，也需要专用算力芯片架构的配合”。

芯片竞争：NPU遭遇瓶颈，GPGPU向下渗透

模型需求明确后，芯片成为最终的落地载体。报告详细分析了NPU与GPGPU两条技术路线的优劣。

NPU：从YOLO兴起，面临架构瓶颈

NPU的第一波增长源于YOLO模型的普及——安防摄像头、初级移动机器人大量搭载了NPU芯片。瑞芯微的RK系列凭借高性价比和低功耗成为主流选择，其营业收入从2016年的12.98亿元增长至2025年的44.02亿元。

但进入大模型时代，NPU遇到了架构层面的硬约束。在扫地机器人等低功耗场景下，若要以ViT基座模型替代YOLO，算力需求将接近100 TFLOPS。更关键的是，NPU缺乏CUDA CORE，所有指令需由CPU下发，而在端侧功耗和成本限制下无法使用高性能CPU。这导致一个困境：“一旦在较弱的CPU下挂载过多NPU核，用于AI任务的指令就会占满CPU所有通信带宽，从而导致设备宕机。”

当前有两条破局路径：

高通跃龙IQ10：采用更强的CPU和更大面积的NPU核，并融合部分GPU的任务调度结构。

瑞芯微RK182x：采用3D-DRAM+协处理器双轨并行，通过堆叠封装增加NPU与存储间的带宽，同时将AI推理任务从主芯片剥离，缓解总线拥堵。

GPGPU：继承云端优势，生态壁垒显著

相比NPU，GPGPU向端侧渗透的路径更为顺畅。云端GPGPU本就是全功能芯片，走向端侧只需按需缩减芯片面积和核心数量，无需面临NPU的架构改造难题。

英伟达的智能驾驶业务收入从2024财年的5.36亿美元增长至2026财年的23.49亿美元，其Orin、Thor系列已推出覆盖不同价位和算力段的产品线。

但GPGPU的核心优势不止于硬件，更在于其强大的软件生态。报告指出，大部分端侧模型的预训练和微调都需借助CUDA生态完成，“若在端侧使用GPGPU架构，无论是部署速度还是最终效果，都将远超需要转译的NPU环境”。同时，英伟达在FP4等低精度推理方面已有成熟方案，可直接下放至端侧，而NPU在此领域的追赶则较为艰难。