数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

热点详情

ollama v0.31.1发布苹果芯片Gemma 4提速近90% 默认无感升级

AI热点日报时间：2026-07-03

热点解读

Ollama v0 31 1 正式版于 2026 年 7 月 1 日上线。从版本号看，这或许不是一次“堆料”式的大版本迭代，但其实际含金量很高——尤其是对于那些在 Apple Silicon 设备上运行 Gemma 4 的用户而言，这次更新的意义非常直接：更快的速度、更强的稳定性、更省心的体验。本

Ollama v0.31.1 正式版于 2026 年 7 月 1 日上线。从版本号看，这或许不是一次“堆料”式的大版本迭代，但其实际含金量很高——尤其是对于那些在 Apple Silicon 设备上运行 Gemma 4 的用户而言，这次更新的意义非常直接：更快的速度、更强的稳定性、更省心的体验。

本次更新的核心关键词只有一个：Faster Gemma 4 on Apple Silicon。根据发布内容，Gemma 4 在 Ollama 的 Apple Silicon 环境中实现了显著的性能提速，其核心驱动力是 multi-token prediction（MTP，多 token 预测）。在一个 coding-agent benchmark 上，平均 token 生成速度提升接近 90%。这个幅度绝非什么“轻微优化”或“特定场景下的偶尔提速”，而是一次足以让用户明显感知到体验飞跃的版本更新。

更重要的是，这次性能提升并不要求你学习任何新操作。Ollama 会在运行过程中自动调整待 draft 的 token 数量——整个过程完全自动完成，默认开启、无需配置，并且不会改变模型输出。对广大用户来说，这才是真正高价值的优化：无需折腾，无需调整参数，也无需适配工作流，更新完就能直接享受性能红利。

下面围绕 v0.31.1 的发布内容，进行一次详细的解读。

一、版本信息概览

本次更新版本为：v0.31.1 Latest，发布日期为 2026 年 7 月 1 日。

从公开信息来看，v0.31.1 的重点主要集中在以下几个方面：

Gemma 4 在 Apple Silicon 上获得了显著的性能提升
通过 multi-token prediction 技术提升生成性能
Ollama 自动调节 draft token 数量
该加速功能默认启用，无需任何手动配置
该优化不会改变模型输出结果
收紧了 Gemma 4 MoE 模型在 MLX 引擎中的加载逻辑
MLX 引擎已升级到最新版本
新版本 MLX 引擎包含全新的 small-batch matmul kernel
底层 llama.cpp 引擎已更新到 build 9840
改进了 Gemma 4 的 MTP 性能

可以看出，这次更新并非单点优化，而是围绕 Gemma 4 在 Apple Silicon 上的运行体验，进行了多层面的联合改进：推理速度、底层引擎、模型加载环节均有涉及。这些变化组合在一起，共同构成了 v0.31.1 的核心价值。

二、最值得关注的升级：Apple Silicon 上的 Gemma 4 更快了

如果只用一句话来概括这次更新：

Gemma 4 在 Ollama 的 Apple Silicon 环境中，生成 token 的速度平均提升了近 90%。

这是此次更新中最亮眼的部分。在实际使用本地大模型时，用户最敏感的体验之一就是“输出快不快”。无论是代码生成、问答交互、内容总结、文本翻译，还是长文本推理，只要 token 生成速度提升，用户的等待时间就会缩短，交互的流畅度就会明显改善。这次近 90% 的平均提升，充分说明了优化的力度之大。

这里有两个关键限定条件不容忽略：

提升的对象是 Gemma 4
运行的环境是 Apple Silicon

这意味着，这次更新的重点受益群体，正是那些在 Apple 芯片设备上使用 Ollama 运行 Gemma 4 的用户。对于这部分用户来说，v0.31.1 的更新价值非常明确——它不是功能层面的“支持”，而是实际性能层面的“显著提速”。

三、为什么会更快：核心来自 MTP

本次速度提升的关键技术，是 multi-token prediction（MTP，多 token 预测）。从发布内容来看，Ollama 正是通过这一机制，让 Gemma 4 在 Apple Silicon 上获得了显著性能改善。官方并非简单地说“做了优化”，而是明确指出，借助 MTP，在 coding-agent benchmark 上实现了平均近 90% 的 token 生成提速。

这意味着什么？这次性能提升并非一个笼统的“代码优化”概念，而是有着明确的技术路径：通过多 token 预测来大幅提高生成效率。

更关键的是，这种优化并不要求用户手动调整运行方式。Ollama 的处理方式是：在运行过程中自动调整待 draft 的 token 数量，这一过程完全自动完成，无需用户设置任何参数，也无需理解复杂的配置，性能收益默认即可享有。

这背后的产品思路非常清晰：将复杂性留在系统内部，把速度提升直接交给用户。对于技术用户来说，这种设计非常友好。很多优化方案虽然理论上很好，但如果需要用户反复调试参数、分析场景、进行兼容性测试，实际落地价值就会大打折扣。Ollama 在 v0.31.1 中给出的方案是自动调优——用户升级版本后，基本可以直接获得收益，不增加任何新的使用负担。

四、自动调优是这次升级的一大亮点

在这次更新说明中，有一句话非常重要：Ollama auto-tunes how many tokens to draft as it runs。这句话的信息量很大。它说明 Ollama 并非固定使用某个静态的 draft token 数量，而是在运行时动态调整。这种“边运行边调优”的方式，意味着系统会根据实际运行情况，自动选择更合适的 token draft 数量，从而达到更优的速度表现。

从用户视角看，这种能力带来的好处主要体现在三个层面：

第一，无需手动配置。 很多性能优化最怕的就是“需要配置”。一旦涉及额外参数，用户就得花时间理解每个设置项的意义，甚至还要为不同模型、不同任务、不同设备分别进行测试。这次更新最直接的好处就是：无需配置。

第二，默认即可享受加速。 发布内容中已经明确说明，这项提速是 on by default。用户无需主动开启，也无需担心“是否还没启用优化”。只要更新到对应版本，这项能力就是立即可用的状态。

第三，不改变模型输出。 这是很多用户非常关心的一点。如果性能提升是以牺牲输出质量为代价，很多生产场景是不愿意接受的。而 v0.31.1 给出的明确信息是：does not change the model's output。这次速度提升并不会改变模型输出的结果。这一点至关重要，因为它意味着此次优化的价值不仅仅是“跑得更快”，而是“在不改变输出的前提下跑得更快”。对于追求结果一致性的场景来说，意义尤为重大。

五、接近 90% 的提升意味着什么

发布内容中提到，Gemma 4 在 Apple Silicon 上，借助 MTP，在一个 coding-agent benchmark 上，平均 token 生成速度提升接近 90%。虽然只给出了一个概括性的结果，但这个数字本身就很有代表性。因为 token 生成速度直接影响用户使用大模型时的主观流畅度。在许多交互式任务中，生成速度越快，使用体验就越接近“实时反馈”。

接近 90% 的平均提升，可以从以下几个角度来理解：

相同任务下，等待输出的时间会显著缩短
连续交互的节奏会变得更加顺畅
代码相关场景中的反馈速度会更高
本地模型运行时的“卡顿感”会明显下降
用户对 Apple Silicon 本地部署的信心会进一步增强

需要注意的是，发布内容描述的是 across a coding-agent benchmark，即在一个 coding-agent benchmark 上取得的平均结果。官方明确给出了基于该 benchmark 的平均表现，清楚说明了提速的衡量场景，也使这个数字更具可参考性。

六、默认开启且不改变输出，这一点为什么很重要

在本地模型领域，很多用户升级新版本时会担心两个问题：

优化之后是否会引入新的配置复杂度
加速之后是否会影响模型输出的一致性

而 Ollama v0.31.1 对这两个问题都给出了非常直接的回答：

默认开启
无需配置
不改变模型输出

这三点放在一起，就是这次更新最具传播力的卖点。默认开启，意味着用户几乎没有迁移成本。无需配置，意味着用户不需要额外学习和试错。不改变输出，意味着用户可以放心接受这次性能提升。真正的优化，不应该让用户在“性能”和“稳定使用方式”之间做二选一。

七、What’s Changed 全量解读

除了最吸引眼球的 Apple Silicon 上 Gemma 4 加速之外，本次版本更新还列出了几个重要的变更项。下面逐条来看。

1. Tightened Gemma 4 MoE model loading in the MLX engine

在 MLX 引擎中收紧了 Gemma 4 MoE 模型的加载逻辑。这是一条很值得关注的更新，虽然未展开更多说明，但它明确指出了调整对象和方向：对象是 Gemma 4 MoE model loading，环境是 MLX engine，调整方向是 tightened。从版本说明来看，这代表 Ollama 对 Gemma 4 MoE 模型在 MLX 引擎中的加载过程进行了更严谨的控制。对于版本稳定性和运行行为而言，这通常是一项非常关键的底层改动——模型加载是推理流程开始前的重要环节。此次更新并未只将重点放在“生成更快”上，同时也覆盖到了“加载环节更紧致”的部分，这说明 v0.31.1 是围绕 Gemma 4 整体运行体验在做系统性的优化。

2. Updated the MLX engine to the latest version, including a new small-batch matmul kernel

将 MLX 引擎更新到最新版本，其中包含了一个全新的 small-batch matmul kernel。这一条同样非常重要。它说明这次更新不仅是对 Ollama 自身逻辑进行调整，还包含了对底层依赖引擎的同步升级。这里包含两层信息：MLX 引擎已更新到最新版本；最新版本中包含了新的 small-batch matmul kernel。作为底层性能基础的一部分，这个 kernel 的存在进一步说明 v0.31.1 不仅有上层行为优化，也有底层计算路径上的改进支撑。

3. Updated the underlying llama.cpp engine to build 9840

底层 llama.cpp 引擎已更新到 build 9840。对于很多关注本地推理生态的开发者来说，底层引擎版本的变化通常非常值得关注，因为它会影响到整体运行基础。虽然官方并未展开 build 9840 的具体细项，但可以肯定的是：v0.31.1 的底层 llama.cpp 引擎已经更新到了 build 9840。这意味着此次版本发布并非局部修补，而是涉及到底层推理引擎的持续同步。这一点与 MLX 引擎更新结合起来看，更能体现出这次版本更新的完整性：上层有 Gemma 4 的 MTP 提升，下层有 MLX 和 llama.cpp 的同步升级。

4. Improved Gemma 4 multi-token prediction performance

改进了 Gemma 4 的多 token 预测性能。这条更新可以看作是与此次版本主题最直接对应的变更项。前面提到的 Apple Silicon 上 Gemma 4 显著提速，核心就来自 MTP；而在 What’s Changed 中，官方又单独列出了对 Gemma 4 MTP performance 的改进，这进一步强化了这次更新的主线：围绕 Gemma 4 的多 token 预测能力做性能增强。用户可以直接把这条理解为：这次版本让 Gemma 4 的多 token 预测机制表现更好了，而这正是 Apple Silicon 上提速的重要来源。

八、把所有更新串起来看

如果把本次更新拆开来看，每一条都很重要；但如果把它们串起来看，就会发现 v0.31.1 的优化路径非常统一。整体逻辑可以归纳为：

围绕 Gemma 4 进行重点优化
重点提升 Apple Silicon 上的实际生成性能
核心采用 MTP 技术
通过自动调节 draft token 数量来获得更优运行效果
该优化默认启用，用户无需任何配置
在不改变模型输出的前提下实现加速
同时收紧 Gemma 4 MoE 在 MLX 引擎中的加载逻辑
再通过更新 MLX 引擎和 llama.cpp 底层引擎，为整体优化提供支撑

这样的版本更新有一个明显特点：目标集中、收益明确、落地成本极低。对用户来说，这种更新非常受欢迎——不要求改变习惯，不要求新增操作，只是在原有使用方式上直接提供更快的体验。

九、为什么说这次更新很适合“立即升级”

从发布内容看，v0.31.1 很适合被归类为“值得尽快升级”的版本，原因也很简单：

第一，收益明确。 Gemma 4 在 Apple Silicon 上显著提速，这是可以直接感知的收益。

第二，使用成本低。 默认开启，无需配置，不需要额外适配使用方法。

第三，输出不变。 不会改变模型输出，这对稳定使用尤为重要。

第四，底层同步升级。 MLX 引擎更新到最新版本，包含新的 small-batch matmul kernel；底层 llama.cpp 更新到 build 9840；Gemma 4 MoE 模型加载在 MLX 引擎中得到收紧；Gemma 4 的 MTP 性能进一步改进。

这些点叠加起来，让 v0.31.1 不是一个“可升可不升”的小版本，而是一个很有现实价值的小版本更新。特别是对于 Apple Silicon 用户来说，这次更新的价值更加突出。

十、适合重点关注的用户群体

虽然这次更新内容不算特别长，但适合重点关注的用户其实很明确：

在 Apple Silicon 上运行 Ollama 的用户
使用 Gemma 4 的用户
关注本地模型生成速度的用户
希望升级后无需重新配置的用户
对输出一致性有要求的用户
关注 MLX 与底层引擎更新的技术用户

尤其是前两类用户，可以说是这次版本最直接的受益群体。更新说明已经明确指出，Gemma 4 在 Apple Silicon 上的速度提升非常明显，而且提升是默认开启的。

十一、这次更新最值得传播的几个关键信息

如果要把 v0.31.1 的亮点浓缩成几句话：

ollama v0.31.1 于 2026 年 7 月 1 日正式发布
Gemma 4 在 Apple Silicon 上获得了显著的加速效果
在 coding-agent benchmark 上，token 生成速度平均提升接近 90%
提速依赖 multi-token prediction 技术
Ollama 会在运行时自动调优 draft token 数量
加速功能默认开启
无需任何手动配置
不改变模型输出结果
收紧了 Gemma 4 MoE 在 MLX 引擎中的模型加载逻辑
MLX 引擎已更新到最新版本，并带来全新的 small-batch matmul kernel
底层 llama.cpp 引擎已更新到 build 9840
Gemma 4 的 MTP 性能得到了进一步提升

这几条信息几乎就是这次版本更新的完整核心。

十二、总结

ollama v0.31.1 虽然是一个小版本号更新，但从实际影响来看，它绝对不是一个可以轻易忽略的版本。这次更新最核心的突破，在于让 Gemma 4 在 Apple Silicon 上变得更快，且不是小幅提升，而是在 coding-agent benchmark 上实现了平均接近 90% 的 token 生成提速。更难得的是，这种提速所依赖的 MTP 机制由 Ollama 自动调优，整个过程默认开启、无需配置、不会改变模型输出，让性能提升真正变成了一种“开箱即得”的能力。

与此同时，v0.31.1 还完成了多项底层与配套更新：收紧 Gemma 4 MoE 模型在 MLX 引擎中的加载逻辑；将 MLX 引擎更新到最新版本；引入新的 small-batch matmul kernel；将底层 llama.cpp 引擎更新到 build 9840；改进了 Gemma 4 的多 token 预测性能。

综合来看，v0.31.1 的更新方向非常聚焦，围绕 Gemma 4、Apple Silicon、MTP、MLX 和底层引擎升级，形成了一套完整且直接有效的优化路径。

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：ollama v0.31.1发布 苹果芯片Gemma 4提速近90% 默认无感升级要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://www.53ai.com/news/OpenSourceLLM/2026070265183.html

ai 人工智能

上一篇：初中辍学生如何把开源AI工具Dify带到硅谷

下一篇：Qoder集成运维能力一句话定位根因

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

ollama v0.31.1发布 苹果芯片Gemma 4提速近90% 默认无感升级