当前位置: 首页
AI
手机运行Gemma 4模型实测与可行性分析

手机运行Gemma 4模型实测与可行性分析

热心网友 时间:2026-05-20
转载

昨天看到一条消息,说有人在 iPhone 17 Pro 上运行 Google 最新发布的 Gemma 4 模型,推理速度超过了每秒 40 个 token。第一反应是:这可能吗?

image-20260407143649125

要知道,Gemma 4 是 Google 在 4 月 2 号刚发布的开源模型家族中的旗舰款。其参数量最大的 31B 版本在 PC 上表现堪称惊艳,但要在手机上运行?这在以前几乎是天方夜谭。

然而,亲自尝试之后发现,这竟然是真的。

整个过程比想象中简单得多。Google 最新推出了一个名为“Google AI Edge Gallery”的应用,直接在应用商店下载安装即可。

图片

在应用内选择 Gemma 4 的 E2B 或 E4B 版本——这两个是专门为手机和物联网设备优化的变体,前者有效参数为 2.3B,后者为 4.5B。下载完成后直接运行,就这么简单。

测试设备是 iPhone 16 Pro Max。两个版本都下载了,E2B 模型需要约 2.6GB 存储空间,E4B 则需要约 3.6GB。必须承认,用 16 Pro Max 运行 E4B 模型有些勉强。不到半小时,手机就已经热得可以煎鸡蛋了。

整个过程无需 API 密钥,不产生任何费用,没有服务器参与,没有任何额外设置。

E2B 版本能够流畅运行,但 E4B 模型会出现卡顿。这也不难理解,因为 iPhone 16 Pro Max 的内存为 8GB,而 iPhone 17 Pro 则达到了 12GB。这意味着,17 Pro 完全有能力流畅运行 E4B 模型。

图片

在苹果 MLX 机器学习框架的优化下,实测推理速度确实超过了每秒 40 个 token。

这是什么概念?这比大多数云端 API 的首次响应速度还要快。关键是,这是在本地离线运行的,零延迟。

E2B 模型的测试响应时间仅需约 2 秒。

图片

E4B 模型的测试回复所需时间则要长一些。

图片

测试任务是让它编写一段 Python 脚本。从理解上下文、生成代码到检查错误,它都能完成。

客观来说,目前手机端的 Gemma 4 强项在于处理日常任务,而非复杂的逻辑推理。像处理图片、分析音频这类本地化任务,它都能胜任,且表现不错。

图片

医疗场景尤其适合在本地运行——数据完全留在设备内,隐私安全得到极大保障,无需担心病历等敏感信息上传至第三方服务器。

另一个亮点是,它支持安装各种功能模块(Skills)。

图片

但如果想将其作为编码助手(coding agent)来应对复杂任务,效果就比较一般了,时常会遇到卡顿或报错,毕竟本地算力仍然有限。

值得一提的是,Gemma 4 的上下文窗口达到了 128K,是上一代 Gemma 3 的 4 倍。128K 上下文意味着你可以将一整本书丢进去让它总结,可以粘贴一个中型项目的所有代码让它分析,也可以输入几个小时的会议记录让它生成纪要。这种规模在手机端运行,在过去是难以想象的。

除了 Gemma,应用内还提供了其他模型可供下载,包括图像模型、语音模型等。

这才是真正的开端

很多人可能尚未意识到这件事的深层意义。

过去,无论模型多么强大,使用它通常意味着付费——购买 token、寻找云服务、按量计费。而 Google Gemma 4 的这一波操作,相当于将顶级模型直接装进了用户的口袋,随时调用,边际成本几乎为零。

这才是真正具有碘伏性的变化。不花钱买 token 也能完成许多任务——这句话听起来简单,但其背后意味着 AI 正从一种“按需购买的服务”转变为“随取随用的工具”。

可以预见,在未来一到两年内,在手机上运行 AI 模型会变得和如今用手机拍照一样普遍。芯片在进化(NPU 算力每年不止翻倍),模型在进化(效率越来越高),工具链也在进化(MLX、TensorFlow Lite 等愈发成熟)。届时,“你的手机能运行多大的模型”可能会和“你的手机像素是多少”一样,成为消费者选购手机时的重要参考指标。

Google 这次抢先落子。OpenAI、Anthropic 等巨头绝不会坐视不理。手机端 AI 的竞争,其实才刚刚拉开序幕。

来源:https://www.51cto.com/article/840102.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
Claude代码助手插件解决编程中断难题

Claude代码助手插件解决编程中断难题

对于深度依赖Claude Code进行开发的用户而言,最令人沮丧的体验莫过于在终端中“盲开”:你永远无法知晓当前对话的上下文容量还剩多少,只能被动等待系统提示耗尽,导致所有精心构建的对话逻辑和代码成果瞬间归零。 就在近期,一个典型的开发场景几乎让项目进度停滞:在编写一个复杂的批量交互脚本时,与Cla

时间:2026-05-20 07:05
谷歌Gemma 4大模型本地部署安装配置完全指南

谷歌Gemma 4大模型本地部署安装配置完全指南

4月3日凌晨,谷歌DeepMind向开源AI社区投下了一枚重磅冲击波:Gemma 4正式发布。 这个拥有310亿参数的模型,性能提升堪称“暴力”。在数学竞赛基准上,它从上一代的20 8%直接跃升至89 2%;编程能力方面,LiveCodeBench得分从29 1%飙升至80%。更关键的是,它采用了A

时间:2026-05-20 07:04
Linux CUPS打印系统高危漏洞可零点击获取root权限

Linux CUPS打印系统高危漏洞可零点击获取root权限

近日,Linux生态系统中一项基础且至关重要的服务——打印服务CUPS被披露存在高危安全漏洞。根据网络安全媒体cyberkendra的报道,攻击者无需任何身份凭证,即可通过远程方式执行恶意代码,并最终获取系统的最高root权限。 这组漏洞由安全研究员Asim Manizada在人工智能工具的辅助下发

时间:2026-05-20 07:04
手机运行Gemma 4模型实测与可行性分析

手机运行Gemma 4模型实测与可行性分析

昨天看到一条消息,说有人在 iPhone 17 Pro 上运行 Google 最新发布的 Gemma 4 模型,推理速度超过了每秒 40 个 token。第一反应是:这可能吗? 要知道,Gemma 4 是 Google 在 4 月 2 号刚发布的开源模型家族中的旗舰款。其参数量最大的 31B 版本在

时间:2026-05-20 07:04
大模型训练合成数据生成的十大实用策略

大模型训练合成数据生成的十大实用策略

合成数据,这个曾经被视为“辅助工具”的技术选项,如今正快速演进为驱动大模型开发与迭代的核心基础设施。对于任何致力于长期模型训练、优化和持续升级的团队而言,构建高质量的合成数据能力已成为一项战略性任务。 背后的驱动力非常现实:获取大规模、高质量的训练数据始终是AI团队面临的主要瓶颈。数据或许存在,但面

时间:2026-05-20 07:04
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程