当前位置: 首页
AI教程
大模型已入驻智能手机端侧AI时代全面来临

大模型已入驻智能手机端侧AI时代全面来临

热心网友 时间:2026-05-30
转载

先说一个有意思的数据:问你个事儿——每当你向 ChatGPT 敲下一个问题,背后大概要消耗 10 倍于一次 Google 搜索的电力。

一次简单的对话,看似便宜,不过几毛钱。但一天累积几亿次对话呢?那可是几千万美元的开销。算到一年,光电费就够你买一支英超球队的了。

但钱只是一方面。更要命的是,你的每一句话、每一张照片、每一段语音,都得先跨越几千公里飞到数据中心,被一群 GPU 翻来覆去地嚼一遍,再飞回来。

结果就是:延迟 200 毫秒起步,隐私全靠一纸信任协议。

那么,一个顺理成章的问题就蹦出来了:能不能把大模型直接塞进手机、PC、甚至耳机里?

就在本周,两大科技巨头同时亮出了答案:

AMD 正在把大型 AI 模型推向离设备更近的位置——通过 NPU(神经网络处理器)让笔记本和台式机自己就能跑起大模型。
苹果 则在推进以隐私为核心的 Siri 升级,强调端侧处理——数据不出手机,AI 全在本地搞定。

说直白点,云端 AI 是“去北京看病”,端侧 AI 是“家门口的社区医院”。并不是所有病都得跑协和,大部分日常小毛病,社区医院就能解决——更快、更便宜、还更私密。

今天我们就拆开来看,端侧 AI 到底怎么把大模型塞进小设备,技术上做了什么妥协,以及——这会怎样改变我们使用 AI 的方式。

一、为什么要把大模型搬下云端?

三重压力倒逼

端侧 AI 可不是什么“锦上添花”的装饰,它纯粹是被三重压力逼出来的。

\

压力一:成本。

云端推理的成本结构很清晰:GPU 算力 + 网络带宽 + 数据中心运维。像 GPT-4 这个级别的模型,每 100 万 Token 的推理成本大约在 10-30 美元。当用户量从百万级涨到十亿级,成本可就指数级往上窜了。

把推理搬到端侧,相当于让用户自己带算力。服务商的边际成本能直接降到接近零。

压力二:延迟。

云端推理的完整链条是:设备 → 基站 → 骨干网 → 数据中心 → GPU 计算 → 原路返回。走这么一圈,200-500 毫秒是常事,这还只是网络通畅的情况下。要是在地铁里、飞机上、或者偏远地区?很可能直接超时。

再看端侧推理的链路:设备 → NPU 计算 → 完成。延迟只有 10-50 毫秒,比眨一下眼睛还快。

压力三:隐私。

这一点最致命。欧盟的 GDPR、中国的《个人信息保护法》、加州的 CCPA——全球隐私法规越来越严格。用户的照片、语音、健康数据如果全得上传到云端处理,合规成本高得吓人,数据泄露的风险更是悬在头顶的达摩克利斯之剑。

端侧处理就意味着你的数据根本不出设备。不是“我们承诺不看你的数据”,而是“你的数据压根儿就没离开过你的手机”。技术层面上的隐私保证,比合同上的白纸黑字强一万倍。

一笔账算清楚

假设一个 AI 助手每天被使用 10 次,每次消耗 1000 Token:

方案

单次成本

日成本(10亿用户)

年成本

云端推理

约 0.01 美元

约 1000 万美元

约 36.5 亿美元

端侧推理

约 0(用户硬件支付)

约 0

约 0

36.5 亿美元对比 0。难怪所有硬件厂商都在拼命往终端设备里塞 AI 能力。

二、AMD 的策略:让每台 PC 都变成 AI 工作站

NPU 是什么?

简单打个比方:
CPU 是“全科医生”——什么都能看,但效率一般。
GPU 是“外科医生”——做并行手术特别厉害,但功耗高、价格贵。
NPU(神经网络处理器)是“AI 专科医生”——只管 AI 推理这一件事,但能效比高得吓人。

NPU 的核心优势在于 TOPS/W(每瓦算力)。在同样的功耗下,NPU 做 AI 推理的性能可以是 CPU 的 10-50 倍。

AMD 在做什么?

AMD 的端侧 AI 策略可以概括为三个字:塞进去。

第一步:把 NPU 塞进 CPU。 AMD 的 Ryzen AI 系列处理器,直接在 CPU 芯片内部集成了专用 NPU。你不需要额外地买加速卡,买了电脑就自带 AI 能力。

第二步:把大模型塞进小设备。 通过模型量化(从 FP32 压缩到 INT4/INT8)、知识蒸馏(用大模型训练小模型)等技术,把原本需要几百 GB 显存的大模型,硬生生压缩到几 GB 甚至几百 MB。

第三步:把生态塞进开发者。 AMD 推出了 Ryzen AI Software SDK,开发者可以很方便地把 AI 模型部署到 NPU 上。ONNX Runtime、PyTorch 这些主流框架都支持。

模型压缩:大象装冰箱

把一个 700 亿参数的大模型塞进只有 16GB 内存的笔记本里,听起来跟“把大象装进冰箱”一样不靠谱。但 AI 工程师们还真琢磨出了“三步装象法”:

第一步:量化。 把模型参数从 32 位浮点数(FP32)压缩到 4 位整数(INT4)。精度大约下降 1-3%,但模型体积能缩小 8 倍。一个 70B 参数模型,能从 280GB 直接压到 35GB。

第二步:剪枝。 砍掉模型中那些“不重要”的连接和神经元。就像修剪树枝——把不结果的枝条剪掉,树反而能长得更好。这一步通常能再压缩 30-50%。

第三步:蒸馏。 用大模型(教师)的知识去训练一个小模型(学生)。学生模型的参数可能只有教师的 1/10,但能保留 90-95% 的能力。

三步走完,一个 70B 的云端模型就能变成一个 7B 的端侧模型,稳稳当当地跑在普通笔记本上,延迟低于 50 毫秒。

代价呢?复杂推理能力会下降。端侧模型做翻译、摘要、代码补全这些事很流畅,但让它写一篇深度分析报告,或者做多步数学推理,那就有点力不从心了。

这就是“社区医院”的定位——常见病没问题,疑难杂症还是得去云端的“三甲医院”。

三、苹果的策略:隐私即产品

苹果做端侧 AI 的逻辑

苹果做端侧 AI 的逻辑跟 AMD 完全不同。

AMD 是性能驱动:让 PC 跑得动更大的模型。

苹果是隐私驱动:用户的数据一个字节都不能出设备。

这不是技术偏好问题,是商业模式决定的。

Google 和 Meta 靠广告赚钱——它们需要你的数据来精准投放广告。而苹果靠卖硬件赚钱——它不需要你的数据,反而可以把“不碰你的数据”当成卖点。

“你的数据留在你的设备上”——这句话对 Google 来说是成本,对苹果来说就是一句金光闪闪的广告语。

Siri 升级的技术路线

苹果正在推进的 Siri 升级,核心是一套分层处理架构:

第一层:完全端侧。 简单任务——比如设闹钟、发消息、查天气——完全在设备上处理。不联网,不上传,零延迟。苹果的 Neural Engine(自家版 NPU)负责干活。

第二层:私有云计算。 遇到复杂任务需要更大模型时,数据会被加密发送到苹果专用的服务器集群。这些服务器运行着定制的 Apple Silicon 芯片,不存储用户数据,处理完就立刻删除。

第三层:第三方模型(如 ChatGPT)。 最复杂的任务可以选择调用外部模型,但必须经过用户明确授权,而且苹果会尽量把请求匿名化。

这套架构的核心思想很清晰:能在本地做的绝不上云,必须上云的绝不存储,必须用外部的绝不自动授权。

隐私 vs 功能的博弈

苹果的隐私策略带来了一个根本性的矛盾:

端侧模型越小,隐私越好,但功能越弱。云端模型越大,功能越强,但隐私越差。

这就是为什么 Siri 在“智能程度”上一直被 Google Assistant 和 ChatGPT 压着打——不是苹果做不出更聪明的 AI,而是苹果选择了隐私优先的技术路线,这条路天然会牺牲一部分能力上限。

苹果赌的是:用户最终会选“够用且安全”,而不是“很强但裸奔”。

就目前来看,这个赌注在高端市场是成立的。愿意为隐私付费的 iPhone 用户,明显多于安卓用户。

四、端侧 vs 云端:不是替代,是分层

“混合推理”才是终局

端侧 AI 不会取代云端 AI,就像社区医院不会取代三甲医院。最终架构一定是混合推理——根据任务的复杂度、隐私敏感度、网络状况,动态决定在哪里算。

场景

推理位置

原因

语音唤醒/人脸解锁

端侧

延迟要求极高,隐私敏感

实时翻译/字幕

端侧

延迟敏感,离线场景多

照片编辑/美颜

端侧

隐私敏感,计算量适中

写一封邮件

端侧/边缘

中等复杂度,可本地处理

深度代码分析

云端

需要大模型,复杂推理

训练/微调模型

云端

算力需求极大

决策树其实很简单:能本地做的本地做,本地做不了的上边缘,边缘做不了的上云端。

硬件厂商的终极目标

AMD、苹果、高通、英特尔——所有硬件厂商推端侧 AI 的终极目标其实都一样:卖更多芯片。

“你的旧电脑/旧手机跑不了 AI”——这是自 4G 升 5G 以来,最强的换机驱动力。

高通的骁龙 X Elite、AMD 的 Ryzen AI、苹果的 M4、英特尔的 Lunar Lake——每一家都在把 NPU 算力写进芯片的广告语里。

PC 行业沉寂了五年,终于找到了让用户换电脑的理由:你的电脑不支持 AI。

手机行业也一样。“端侧大模型”正在成为旗舰手机的标配卖点,就像当年的“千万像素摄像头”。

五、对技术人的三个判断

第一,端侧推理是未来 2-3 年最确定的技术趋势。

不管你做前端、后端还是移动端,了解端侧 AI 的部署方式(ONNX、Core ML、TensorFlow Lite)都会变成加分项。模型压缩和量化技术尤其值得花时间研究。

第二,“混合推理”架构设计将成为新的技术壁垒。

如何设计一套系统,让 AI 任务在端侧、边缘和云端之间无缝切换?这里涉及模型分割、智能路由、一致性保证——这些架构问题目前还没有标准答案,谁先解决谁就有优势。

第三,隐私将成为 AI 产品的核心竞争力。

苹果已经证明“隐私可以卖钱”。随着全球隐私法规不断收紧,“你的数据不出设备”将从营销口号变成技术刚需。端侧 AI 不只是性能优化,更是合规基础设施。

写在最后

云端 AI 就像一座巨大的发电站——功率惊人,但电线拉不到每个角落。

端侧 AI 则像每家每户屋顶的太阳能板——功率有限,但能自给自足,不怕断电。

未来的 AI 基础设施,不会只有发电站,也不会只有太阳能板。而会是发电站 + 太阳能板 + 储能电池构成的混合电网。

AMD 在造更强的太阳能板,苹果在造更安全的太阳能板。殊途同归——都是为了让 AI 从“云上的奢侈品”变成“身边的日用品”。

你的下一台电脑,也许就自带了一个“小号 ChatGPT”。不需要联网,不需要付钱,不需要把你的秘密告诉任何人。

那一天,不远了。

来源:https://cloud.tencent.com.cn/developer/article/2676389

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
AI编码工具Copilot与Cursor让开发效率翻倍

AI编码工具Copilot与Cursor让开发效率翻倍

从Copilot到Cursor,AI编码工具将开发效率提升数倍,如CRUD接口开发从2小时缩短至30分钟。但其本质是统计模式匹配,生成代码需严格审查,避免安全漏洞与过度依赖。开发者仍需对代码质量负最终责任。

时间:2026-05-30 10:13
零代码基础用AI做小游戏:Claude Code写逻辑WorkBuddy美画面惊喜之旅

零代码基础用AI做小游戏:Claude Code写逻辑WorkBuddy美画面惊喜之旅

零代码基础者借助ClaudeCode搭建游戏逻辑,再使用腾讯WorkBuddy优化画面,成功制作出“切小猪”微信小游戏。ClaudeCode精准实现物理效果与机制,WorkBuddy一次性完成表情动态、切果汁飞溅、连击特效等八大视觉优化,使游戏从单调变为丰富流畅,证明不会代码也能借助AI完成游戏开发。

时间:2026-05-30 10:12
智能小说生成器重塑创作模式与表达人类情感的未来

智能小说生成器重塑创作模式与表达人类情感的未来

下午的咖啡馆里,阳光透过落地窗洒进来,邻桌一位年轻作家正和同伴兴致勃勃地聊着AI写作工具。这样的场景,如今已经越来越常见了。从最初的新奇尝试,到如今实实在在地进入创作流程,AI小说创作应用正在悄然改变着写作这件事的面貌,成为众多写作者提升效率的得力助手。 无论你是刚踏入写作领域的新人,还是已积累多年

时间:2026-05-30 10:11
WizyChat智能对话AI企业高效沟通解决方案

WizyChat智能对话AI企业高效沟通解决方案

如果你正在寻找一款能够快速上线、无需编写代码的AI客服工具,那么WizyChat值得列入你的候选名单。简单来说,它是一款可定制的GPT聊天机器人——只需将你的网站、帮助中心、常见问题页面或在线商店的数据导入,它就能自动学习并生成针对性的精准回复。整个配置过程只需几分钟,支持超过95种语言,定价灵活且

时间:2026-05-30 10:11
AI引领表格软件革命,你准备好迎接未来了吗

AI引领表格软件革命,你准备好迎接未来了吗

在数字化浪潮全面袭来的今天,人工智能对表格软件的影响早已不是简单的“锦上添花”,而是带来了一场实实在在的变革。回想一年前,许多人还在Excel中手动拖拽、反复核对,面对复杂的数据分析任务常感到无从下手。如今,AI驱动的表格工具让这一切发生了质变——那么,这种体验究竟有多不同? 先看一组数据:超过70

时间:2026-05-30 10:10
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程