面包屑图标 当前位置: 首页
AI资讯
热点详情

ollama v0.31.1发布 苹果芯片Gemma 4提速近90% 默认无感升级

AI热点日报
AI热点日报时间:2026-07-03
热点解读

Ollama v0 31 1 正式版于 2026 年 7 月 1 日上线。从版本号看,这或许不是一次“堆料”式的大版本迭代,但其实际含金量很高——尤其是对于那些在 Apple Silicon 设备上运行 Gemma 4 的用户而言,这次更新的意义非常直接:更快的速度、更强的稳定性、更省心的体验。 本

Ollama v0.31.1 正式版于 2026 年 7 月 1 日上线。从版本号看,这或许不是一次“堆料”式的大版本迭代,但其实际含金量很高——尤其是对于那些在 Apple Silicon 设备上运行 Gemma 4 的用户而言,这次更新的意义非常直接:更快的速度、更强的稳定性、更省心的体验。

本次更新的核心关键词只有一个:Faster Gemma 4 on Apple Silicon。根据发布内容,Gemma 4 在 Ollama 的 Apple Silicon 环境中实现了显著的性能提速,其核心驱动力是 multi-token prediction(MTP,多 token 预测)。在一个 coding-agent benchmark 上,平均 token 生成速度提升接近 90%。这个幅度绝非什么“轻微优化”或“特定场景下的偶尔提速”,而是一次足以让用户明显感知到体验飞跃的版本更新。

更重要的是,这次性能提升并不要求你学习任何新操作。Ollama 会在运行过程中自动调整待 draft 的 token 数量——整个过程完全自动完成,默认开启、无需配置,并且不会改变模型输出。对广大用户来说,这才是真正高价值的优化:无需折腾,无需调整参数,也无需适配工作流,更新完就能直接享受性能红利。

下面围绕 v0.31.1 的发布内容,进行一次详细的解读。

一、版本信息概览

本次更新版本为:v0.31.1 Latest,发布日期为 2026 年 7 月 1 日。

从公开信息来看,v0.31.1 的重点主要集中在以下几个方面:

  • Gemma 4 在 Apple Silicon 上获得了显著的性能提升
  • 通过 multi-token prediction 技术提升生成性能
  • Ollama 自动调节 draft token 数量
  • 该加速功能默认启用,无需任何手动配置
  • 该优化不会改变模型输出结果
  • 收紧了 Gemma 4 MoE 模型在 MLX 引擎中的加载逻辑
  • MLX 引擎已升级到最新版本
  • 新版本 MLX 引擎包含全新的 small-batch matmul kernel
  • 底层 llama.cpp 引擎已更新到 build 9840
  • 改进了 Gemma 4 的 MTP 性能

可以看出,这次更新并非单点优化,而是围绕 Gemma 4 在 Apple Silicon 上的运行体验,进行了多层面的联合改进:推理速度、底层引擎、模型加载环节均有涉及。这些变化组合在一起,共同构成了 v0.31.1 的核心价值。

二、最值得关注的升级:Apple Silicon 上的 Gemma 4 更快了

如果只用一句话来概括这次更新:

Gemma 4 在 Ollama 的 Apple Silicon 环境中,生成 token 的速度平均提升了近 90%。

这是此次更新中最亮眼的部分。在实际使用本地大模型时,用户最敏感的体验之一就是“输出快不快”。无论是代码生成、问答交互、内容总结、文本翻译,还是长文本推理,只要 token 生成速度提升,用户的等待时间就会缩短,交互的流畅度就会明显改善。这次近 90% 的平均提升,充分说明了优化的力度之大。

这里有两个关键限定条件不容忽略:

  • 提升的对象是 Gemma 4
  • 运行的环境是 Apple Silicon

这意味着,这次更新的重点受益群体,正是那些在 Apple 芯片设备上使用 Ollama 运行 Gemma 4 的用户。对于这部分用户来说,v0.31.1 的更新价值非常明确——它不是功能层面的“支持”,而是实际性能层面的“显著提速”。

三、为什么会更快:核心来自 MTP

本次速度提升的关键技术,是 multi-token prediction(MTP,多 token 预测)。从发布内容来看,Ollama 正是通过这一机制,让 Gemma 4 在 Apple Silicon 上获得了显著性能改善。官方并非简单地说“做了优化”,而是明确指出,借助 MTP,在 coding-agent benchmark 上实现了平均近 90% 的 token 生成提速。

这意味着什么?这次性能提升并非一个笼统的“代码优化”概念,而是有着明确的技术路径:通过多 token 预测来大幅提高生成效率。

更关键的是,这种优化并不要求用户手动调整运行方式。Ollama 的处理方式是:在运行过程中自动调整待 draft 的 token 数量,这一过程完全自动完成,无需用户设置任何参数,也无需理解复杂的配置,性能收益默认即可享有。

这背后的产品思路非常清晰:将复杂性留在系统内部,把速度提升直接交给用户。对于技术用户来说,这种设计非常友好。很多优化方案虽然理论上很好,但如果需要用户反复调试参数、分析场景、进行兼容性测试,实际落地价值就会大打折扣。Ollama 在 v0.31.1 中给出的方案是自动调优——用户升级版本后,基本可以直接获得收益,不增加任何新的使用负担。

四、自动调优是这次升级的一大亮点

在这次更新说明中,有一句话非常重要:Ollama auto-tunes how many tokens to draft as it runs。这句话的信息量很大。它说明 Ollama 并非固定使用某个静态的 draft token 数量,而是在运行时动态调整。这种“边运行边调优”的方式,意味着系统会根据实际运行情况,自动选择更合适的 token draft 数量,从而达到更优的速度表现。

从用户视角看,这种能力带来的好处主要体现在三个层面:

第一,无需手动配置。 很多性能优化最怕的就是“需要配置”。一旦涉及额外参数,用户就得花时间理解每个设置项的意义,甚至还要为不同模型、不同任务、不同设备分别进行测试。这次更新最直接的好处就是:无需配置。

第二,默认即可享受加速。 发布内容中已经明确说明,这项提速是 on by default。用户无需主动开启,也无需担心“是否还没启用优化”。只要更新到对应版本,这项能力就是立即可用的状态。

第三,不改变模型输出。 这是很多用户非常关心的一点。如果性能提升是以牺牲输出质量为代价,很多生产场景是不愿意接受的。而 v0.31.1 给出的明确信息是:does not change the model's output。这次速度提升并不会改变模型输出的结果。这一点至关重要,因为它意味着此次优化的价值不仅仅是“跑得更快”,而是“在不改变输出的前提下跑得更快”。对于追求结果一致性的场景来说,意义尤为重大。

五、接近 90% 的提升意味着什么

发布内容中提到,Gemma 4 在 Apple Silicon 上,借助 MTP,在一个 coding-agent benchmark 上,平均 token 生成速度提升接近 90%。虽然只给出了一个概括性的结果,但这个数字本身就很有代表性。因为 token 生成速度直接影响用户使用大模型时的主观流畅度。在许多交互式任务中,生成速度越快,使用体验就越接近“实时反馈”。

接近 90% 的平均提升,可以从以下几个角度来理解:

  • 相同任务下,等待输出的时间会显著缩短
  • 连续交互的节奏会变得更加顺畅
  • 代码相关场景中的反馈速度会更高
  • 本地模型运行时的“卡顿感”会明显下降
  • 用户对 Apple Silicon 本地部署的信心会进一步增强

需要注意的是,发布内容描述的是 across a coding-agent benchmark,即在一个 coding-agent benchmark 上取得的平均结果。官方明确给出了基于该 benchmark 的平均表现,清楚说明了提速的衡量场景,也使这个数字更具可参考性。

六、默认开启且不改变输出,这一点为什么很重要

在本地模型领域,很多用户升级新版本时会担心两个问题:

  1. 优化之后是否会引入新的配置复杂度
  2. 加速之后是否会影响模型输出的一致性

而 Ollama v0.31.1 对这两个问题都给出了非常直接的回答:

  • 默认开启
  • 无需配置
  • 不改变模型输出

这三点放在一起,就是这次更新最具传播力的卖点。默认开启,意味着用户几乎没有迁移成本。无需配置,意味着用户不需要额外学习和试错。不改变输出,意味着用户可以放心接受这次性能提升。真正的优化,不应该让用户在“性能”和“稳定使用方式”之间做二选一。

七、What’s Changed 全量解读

除了最吸引眼球的 Apple Silicon 上 Gemma 4 加速之外,本次版本更新还列出了几个重要的变更项。下面逐条来看。

1. Tightened Gemma 4 MoE model loading in the MLX engine

在 MLX 引擎中收紧了 Gemma 4 MoE 模型的加载逻辑。这是一条很值得关注的更新,虽然未展开更多说明,但它明确指出了调整对象和方向:对象是 Gemma 4 MoE model loading,环境是 MLX engine,调整方向是 tightened。从版本说明来看,这代表 Ollama 对 Gemma 4 MoE 模型在 MLX 引擎中的加载过程进行了更严谨的控制。对于版本稳定性和运行行为而言,这通常是一项非常关键的底层改动——模型加载是推理流程开始前的重要环节。此次更新并未只将重点放在“生成更快”上,同时也覆盖到了“加载环节更紧致”的部分,这说明 v0.31.1 是围绕 Gemma 4 整体运行体验在做系统性的优化。

2. Updated the MLX engine to the latest version, including a new small-batch matmul kernel

将 MLX 引擎更新到最新版本,其中包含了一个全新的 small-batch matmul kernel。这一条同样非常重要。它说明这次更新不仅是对 Ollama 自身逻辑进行调整,还包含了对底层依赖引擎的同步升级。这里包含两层信息:MLX 引擎已更新到最新版本;最新版本中包含了新的 small-batch matmul kernel。作为底层性能基础的一部分,这个 kernel 的存在进一步说明 v0.31.1 不仅有上层行为优化,也有底层计算路径上的改进支撑。

3. Updated the underlying llama.cpp engine to build 9840

底层 llama.cpp 引擎已更新到 build 9840。对于很多关注本地推理生态的开发者来说,底层引擎版本的变化通常非常值得关注,因为它会影响到整体运行基础。虽然官方并未展开 build 9840 的具体细项,但可以肯定的是:v0.31.1 的底层 llama.cpp 引擎已经更新到了 build 9840。这意味着此次版本发布并非局部修补,而是涉及到底层推理引擎的持续同步。这一点与 MLX 引擎更新结合起来看,更能体现出这次版本更新的完整性:上层有 Gemma 4 的 MTP 提升,下层有 MLX 和 llama.cpp 的同步升级。

4. Improved Gemma 4 multi-token prediction performance

改进了 Gemma 4 的多 token 预测性能。这条更新可以看作是与此次版本主题最直接对应的变更项。前面提到的 Apple Silicon 上 Gemma 4 显著提速,核心就来自 MTP;而在 What’s Changed 中,官方又单独列出了对 Gemma 4 MTP performance 的改进,这进一步强化了这次更新的主线:围绕 Gemma 4 的多 token 预测能力做性能增强。用户可以直接把这条理解为:这次版本让 Gemma 4 的多 token 预测机制表现更好了,而这正是 Apple Silicon 上提速的重要来源。

八、把所有更新串起来看

如果把本次更新拆开来看,每一条都很重要;但如果把它们串起来看,就会发现 v0.31.1 的优化路径非常统一。整体逻辑可以归纳为:

  • 围绕 Gemma 4 进行重点优化
  • 重点提升 Apple Silicon 上的实际生成性能
  • 核心采用 MTP 技术
  • 通过自动调节 draft token 数量来获得更优运行效果
  • 该优化默认启用,用户无需任何配置
  • 在不改变模型输出的前提下实现加速
  • 同时收紧 Gemma 4 MoE 在 MLX 引擎中的加载逻辑
  • 再通过更新 MLX 引擎和 llama.cpp 底层引擎,为整体优化提供支撑

这样的版本更新有一个明显特点:目标集中、收益明确、落地成本极低。对用户来说,这种更新非常受欢迎——不要求改变习惯,不要求新增操作,只是在原有使用方式上直接提供更快的体验。

九、为什么说这次更新很适合“立即升级”

从发布内容看,v0.31.1 很适合被归类为“值得尽快升级”的版本,原因也很简单:

第一,收益明确。 Gemma 4 在 Apple Silicon 上显著提速,这是可以直接感知的收益。

第二,使用成本低。 默认开启,无需配置,不需要额外适配使用方法。

第三,输出不变。 不会改变模型输出,这对稳定使用尤为重要。

第四,底层同步升级。 MLX 引擎更新到最新版本,包含新的 small-batch matmul kernel;底层 llama.cpp 更新到 build 9840;Gemma 4 MoE 模型加载在 MLX 引擎中得到收紧;Gemma 4 的 MTP 性能进一步改进。

这些点叠加起来,让 v0.31.1 不是一个“可升可不升”的小版本,而是一个很有现实价值的小版本更新。特别是对于 Apple Silicon 用户来说,这次更新的价值更加突出。

十、适合重点关注的用户群体

虽然这次更新内容不算特别长,但适合重点关注的用户其实很明确:

  • 在 Apple Silicon 上运行 Ollama 的用户
  • 使用 Gemma 4 的用户
  • 关注本地模型生成速度的用户
  • 希望升级后无需重新配置的用户
  • 对输出一致性有要求的用户
  • 关注 MLX 与底层引擎更新的技术用户

尤其是前两类用户,可以说是这次版本最直接的受益群体。更新说明已经明确指出,Gemma 4 在 Apple Silicon 上的速度提升非常明显,而且提升是默认开启的。

十一、这次更新最值得传播的几个关键信息

如果要把 v0.31.1 的亮点浓缩成几句话:

  • ollama v0.31.1 于 2026 年 7 月 1 日正式发布
  • Gemma 4 在 Apple Silicon 上获得了显著的加速效果
  • 在 coding-agent benchmark 上,token 生成速度平均提升接近 90%
  • 提速依赖 multi-token prediction 技术
  • Ollama 会在运行时自动调优 draft token 数量
  • 加速功能默认开启
  • 无需任何手动配置
  • 不改变模型输出结果
  • 收紧了 Gemma 4 MoE 在 MLX 引擎中的模型加载逻辑
  • MLX 引擎已更新到最新版本,并带来全新的 small-batch matmul kernel
  • 底层 llama.cpp 引擎已更新到 build 9840
  • Gemma 4 的 MTP 性能得到了进一步提升

这几条信息几乎就是这次版本更新的完整核心。

十二、总结

ollama v0.31.1 虽然是一个小版本号更新,但从实际影响来看,它绝对不是一个可以轻易忽略的版本。这次更新最核心的突破,在于让 Gemma 4 在 Apple Silicon 上变得更快,且不是小幅提升,而是在 coding-agent benchmark 上实现了平均接近 90% 的 token 生成提速。更难得的是,这种提速所依赖的 MTP 机制由 Ollama 自动调优,整个过程默认开启、无需配置、不会改变模型输出,让性能提升真正变成了一种“开箱即得”的能力。

与此同时,v0.31.1 还完成了多项底层与配套更新:收紧 Gemma 4 MoE 模型在 MLX 引擎中的加载逻辑;将 MLX 引擎更新到最新版本;引入新的 small-batch matmul kernel;将底层 llama.cpp 引擎更新到 build 9840;改进了 Gemma 4 的多 token 预测性能。

综合来看,v0.31.1 的更新方向非常聚焦,围绕 Gemma 4、Apple Silicon、MTP、MLX 和底层引擎升级,形成了一套完整且直接有效的优化路径。

热点追踪提示词
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:ollama v0.31.1发布 苹果芯片Gemma 4提速近90% 默认无感升级要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
来源:https://www.53ai.com/news/OpenSourceLLM/2026070265183.html
ai 人工智能

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关热点
AI热点2026-07-04 19:00
Daetama数据科学完整准备工作系统指南与精选学习资源汇总

Daetama是面向数据科学面试和SQL能力提升的练习平台,已收录超100个覆盖基础到进阶的SQL题目,求职板块与课程模块在开发中,团队保持每周更新节奏,提供系统性刷题与模拟面试场景。

AI热点2026-07-04 19:00
AI驱动配音平台 Speakmulti

SpeakMulti是一款AI驱动的配音平台,可将YouTube视频翻译成多种语言,保留原始说话者的音色和语调,降低本地化成本。用户提交视频并选择目标语言后,AI自动完成配音,并由专家团队审核,确保准确自然。

AI热点2026-07-04 18:59
Umi-OCR图片转文字识别软件

需求人群 如果你经常需要从图片中提取文字——例如整理截图内容、翻译图片里的外语文本、识别带有水印的图片信息——那么 Umi-OCR 无疑是一款相当实用的工具。它完全在本地运行,无需联网,对隐私保护极为友好。 产品特色 这款工具的核心亮点都集中在实用性上。截屏识别操作非常顺手,按下快捷键即可框选区域,

AI热点2026-07-04 18:59
用AI生成你最爱的画家或艺术运动风格绘画

艺术创作与人工智能的融合,正在开启一个全新的创作时代。moonlightai 正是这样一款AI绘画工具,能够帮助用户通过人工智能快速生成不同风格的绘画作品——无论你想复刻文艺复兴时期的古典优雅,还是为画作注入梵高般炽热的笔触,甚至从艾沃佐夫斯基的海浪星空中汲取灵感,它都能轻松实现。 需求人群 简单来

延伸阅读