大模型已入驻智能手机端侧AI时代全面来临

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI教程

大模型已入驻智能手机端侧AI时代全面来临

热心网友时间：2026-05-30

转载

先说一个有意思的数据：问你个事儿——每当你向 ChatGPT 敲下一个问题，背后大概要消耗 10 倍于一次 Google 搜索的电力。

一次简单的对话，看似便宜，不过几毛钱。但一天累积几亿次对话呢？那可是几千万美元的开销。算到一年，光电费就够你买一支英超球队的了。

但钱只是一方面。更要命的是，你的每一句话、每一张照片、每一段语音，都得先跨越几千公里飞到数据中心，被一群 GPU 翻来覆去地嚼一遍，再飞回来。

结果就是：延迟 200 毫秒起步，隐私全靠一纸信任协议。

那么，一个顺理成章的问题就蹦出来了：能不能把大模型直接塞进手机、PC、甚至耳机里？

就在本周，两大科技巨头同时亮出了答案：

AMD 正在把大型 AI 模型推向离设备更近的位置——通过 NPU（神经网络处理器）让笔记本和台式机自己就能跑起大模型。
苹果则在推进以隐私为核心的 Siri 升级，强调端侧处理——数据不出手机，AI 全在本地搞定。

说直白点，云端 AI 是“去北京看病”，端侧 AI 是“家门口的社区医院”。并不是所有病都得跑协和，大部分日常小毛病，社区医院就能解决——更快、更便宜、还更私密。

今天我们就拆开来看，端侧 AI 到底怎么把大模型塞进小设备，技术上做了什么妥协，以及——这会怎样改变我们使用 AI 的方式。

一、为什么要把大模型搬下云端？

三重压力倒逼

端侧 AI 可不是什么“锦上添花”的装饰，它纯粹是被三重压力逼出来的。

压力一：成本。

云端推理的成本结构很清晰：GPU 算力 + 网络带宽 + 数据中心运维。像 GPT-4 这个级别的模型，每 100 万 Token 的推理成本大约在 10-30 美元。当用户量从百万级涨到十亿级，成本可就指数级往上窜了。

把推理搬到端侧，相当于让用户自己带算力。服务商的边际成本能直接降到接近零。

压力二：延迟。

云端推理的完整链条是：设备 → 基站 → 骨干网 → 数据中心 → GPU 计算 → 原路返回。走这么一圈，200-500 毫秒是常事，这还只是网络通畅的情况下。要是在地铁里、飞机上、或者偏远地区？很可能直接超时。

再看端侧推理的链路：设备 → NPU 计算 → 完成。延迟只有 10-50 毫秒，比眨一下眼睛还快。

压力三：隐私。

这一点最致命。欧盟的 GDPR、中国的《个人信息保护法》、加州的 CCPA——全球隐私法规越来越严格。用户的照片、语音、健康数据如果全得上传到云端处理，合规成本高得吓人，数据泄露的风险更是悬在头顶的达摩克利斯之剑。

端侧处理就意味着你的数据根本不出设备。不是“我们承诺不看你的数据”，而是“你的数据压根儿就没离开过你的手机”。技术层面上的隐私保证，比合同上的白纸黑字强一万倍。

一笔账算清楚

假设一个 AI 助手每天被使用 10 次，每次消耗 1000 Token：

方案	单次成本	日成本（10亿用户）	年成本
云端推理	约 0.01 美元	约 1000 万美元	约 36.5 亿美元
端侧推理	约 0（用户硬件支付）	约 0	约 0

36.5 亿美元对比 0。难怪所有硬件厂商都在拼命往终端设备里塞 AI 能力。

二、AMD 的策略：让每台 PC 都变成 AI 工作站

NPU 是什么？

简单打个比方：
CPU 是“全科医生”——什么都能看，但效率一般。
GPU 是“外科医生”——做并行手术特别厉害，但功耗高、价格贵。
NPU（神经网络处理器）是“AI 专科医生”——只管 AI 推理这一件事，但能效比高得吓人。

NPU 的核心优势在于 TOPS/W（每瓦算力）。在同样的功耗下，NPU 做 AI 推理的性能可以是 CPU 的 10-50 倍。

AMD 在做什么？

AMD 的端侧 AI 策略可以概括为三个字：塞进去。

第一步：把 NPU 塞进 CPU。 AMD 的 Ryzen AI 系列处理器，直接在 CPU 芯片内部集成了专用 NPU。你不需要额外地买加速卡，买了电脑就自带 AI 能力。

第二步：把大模型塞进小设备。 通过模型量化（从 FP32 压缩到 INT4/INT8）、知识蒸馏（用大模型训练小模型）等技术，把原本需要几百 GB 显存的大模型，硬生生压缩到几 GB 甚至几百 MB。

第三步：把生态塞进开发者。 AMD 推出了 Ryzen AI Software SDK，开发者可以很方便地把 AI 模型部署到 NPU 上。ONNX Runtime、PyTorch 这些主流框架都支持。

模型压缩：大象装冰箱

把一个 700 亿参数的大模型塞进只有 16GB 内存的笔记本里，听起来跟“把大象装进冰箱”一样不靠谱。但 AI 工程师们还真琢磨出了“三步装象法”：

第一步：量化。 把模型参数从 32 位浮点数（FP32）压缩到 4 位整数（INT4）。精度大约下降 1-3%，但模型体积能缩小 8 倍。一个 70B 参数模型，能从 280GB 直接压到 35GB。

第二步：剪枝。 砍掉模型中那些“不重要”的连接和神经元。就像修剪树枝——把不结果的枝条剪掉，树反而能长得更好。这一步通常能再压缩 30-50%。

第三步：蒸馏。 用大模型（教师）的知识去训练一个小模型（学生）。学生模型的参数可能只有教师的 1/10，但能保留 90-95% 的能力。

三步走完，一个 70B 的云端模型就能变成一个 7B 的端侧模型，稳稳当当地跑在普通笔记本上，延迟低于 50 毫秒。

代价呢？复杂推理能力会下降。端侧模型做翻译、摘要、代码补全这些事很流畅，但让它写一篇深度分析报告，或者做多步数学推理，那就有点力不从心了。

这就是“社区医院”的定位——常见病没问题，疑难杂症还是得去云端的“三甲医院”。

三、苹果的策略：隐私即产品

苹果做端侧 AI 的逻辑

苹果做端侧 AI 的逻辑跟 AMD 完全不同。

AMD 是性能驱动：让 PC 跑得动更大的模型。

苹果是隐私驱动：用户的数据一个字节都不能出设备。

这不是技术偏好问题，是商业模式决定的。

Google 和 Meta 靠广告赚钱——它们需要你的数据来精准投放广告。而苹果靠卖硬件赚钱——它不需要你的数据，反而可以把“不碰你的数据”当成卖点。

“你的数据留在你的设备上”——这句话对 Google 来说是成本，对苹果来说就是一句金光闪闪的广告语。

Siri 升级的技术路线

苹果正在推进的 Siri 升级，核心是一套分层处理架构：

第一层：完全端侧。 简单任务——比如设闹钟、发消息、查天气——完全在设备上处理。不联网，不上传，零延迟。苹果的 Neural Engine（自家版 NPU）负责干活。

第二层：私有云计算。 遇到复杂任务需要更大模型时，数据会被加密发送到苹果专用的服务器集群。这些服务器运行着定制的 Apple Silicon 芯片，不存储用户数据，处理完就立刻删除。

第三层：第三方模型（如 ChatGPT）。 最复杂的任务可以选择调用外部模型，但必须经过用户明确授权，而且苹果会尽量把请求匿名化。

这套架构的核心思想很清晰：能在本地做的绝不上云，必须上云的绝不存储，必须用外部的绝不自动授权。

隐私 vs 功能的博弈

苹果的隐私策略带来了一个根本性的矛盾：

端侧模型越小，隐私越好，但功能越弱。云端模型越大，功能越强，但隐私越差。

这就是为什么 Siri 在“智能程度”上一直被 Google Assistant 和 ChatGPT 压着打——不是苹果做不出更聪明的 AI，而是苹果选择了隐私优先的技术路线，这条路天然会牺牲一部分能力上限。

苹果赌的是：用户最终会选“够用且安全”，而不是“很强但裸奔”。

就目前来看，这个赌注在高端市场是成立的。愿意为隐私付费的 iPhone 用户，明显多于安卓用户。

四、端侧 vs 云端：不是替代，是分层

“混合推理”才是终局

端侧 AI 不会取代云端 AI，就像社区医院不会取代三甲医院。最终架构一定是混合推理——根据任务的复杂度、隐私敏感度、网络状况，动态决定在哪里算。

场景	推理位置	原因
语音唤醒/人脸解锁	端侧	延迟要求极高，隐私敏感
实时翻译/字幕	端侧	延迟敏感，离线场景多
照片编辑/美颜	端侧	隐私敏感，计算量适中
写一封邮件	端侧/边缘	中等复杂度，可本地处理
深度代码分析	云端	需要大模型，复杂推理
训练/微调模型	云端	算力需求极大