数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

热点详情

谷歌Gemma 3上线单GPU可跑27B多模态超越o3-mini

AI热点日报时间：2026-07-03

热点解读

谷歌的开源模型家族再添新成员——Gemma 3正式发布。在巴黎开发者日活动中，第三代Gemma原生支持多模态能力，上下文长度达到128k，并一口气开源了四种参数规模：1B、4B、12B和27B。最令人振奋的是，仅需一块GPU或TPU即可运行，大幅降低了部署门槛。在LMArena竞技场中，Gemma

谷歌的开源模型家族再添新成员——Gemma 3正式发布。在巴黎开发者日活动中，第三代Gemma原生支持多模态能力，上下文长度达到128k，并一口气开源了四种参数规模：1B、4B、12B和27B。最令人振奋的是，仅需一块GPU或TPU即可运行，大幅降低了部署门槛。

刚刚，谷歌Gemma 3上线！单GPU最强多模态手机可跑，27B完胜o3-mini

在LMArena竞技场中，Gemma 3获得了1339 ELO的高分。仅凭27B参数，它击败了o1-preview、o3-mini high、DeepSeek V3，成为仅次于DeepSeek R1的顶尖开源模型之一。这一成绩相当亮眼——要知道，许多参数量更大的模型也只能甘拜下风。

具体而言，Gemma 3各版本的训练数据量分别为：1B版本2T token，4B版本4T token，12B版本12T token，27B版本14T token。它们通晓140多种语言，支持图像输入、文本输出，还能进行结构化输出和函数调用。多项基准测试显示，相比上一代，27B模型在数学性能上提升了33到45分。即便与闭源的Gemini 1.5、2.0对比，Gemma 3-27B也基本不逊于Flash版本。与此同时，Gemma 3的26页技术报告也已正式开放。

论文地址：https://storage.googleapis.com/deepmind-media/gemma/Gemma3Report.pdf
项目地址：https://huggingface.co/collections/google/gemma-3-release-67c6c6f89c4f76621268bb6d

Gemma系列问世一年以来，下载量已突破1亿次，衍生模型超过6万个。此次第三代发布，无疑是谷歌在开源社区迈出的又一个重要里程碑。

27B打进全球Top 10，手机笔记本轻松运行

Gemma 3是谷歌迄今为止最先进、最便携的开源模型，技术基础与Gemini 2.0一脉相承。它专为端侧设备设计——从手机、笔记本到工作站，开发者可以在需要的地方直接运行AI应用。

使用世界最佳单设备加速模型进行开发：Gemma 3在LMArena排行榜的人类偏好评估中超越了Llama-405B、DeepSeek-V3和o3-mini，单GPU或TPU即可运行，带来独特的开发体验。
支持140种语言，覆盖全球：开箱即用支持35种以上语言，预训练覆盖140多种。
创建具有高级文本和视觉推理能力的AI：轻松开发可分析图像、文本和短视频的应用。
通过扩展的上下文窗口处理复杂任务：128k token上下文窗口，让应用能处理海量信息。
使用函数调用创建AI驱动的工作流：支持函数调用和结构化输出，可自动化任务。
使用量化模型更快实现高性能：官方量化版本，在保持精度的同时减少计算需求。

根据Chatbot Arena Elo评分排名，Gemma 3 27B得分极高，而其他模型通常需要多达32个GPU，它只需1个即可运行。

如何训练？

在预训练和后训练阶段，Gemma 3采用了蒸馏技术，并通过强化学习与模型合并组合进行优化。这种方法在数学、编码、指令跟随方面提升显著。它还采用全新分词器，支持140多种语言，使用JAX框架在Google TPU上训练。后训练阶段主要包括四个组件：从更大指令模型蒸馏到预训练检查点、人类反馈强化学习（RLHF）、机器反馈强化学习（RLMF，增强数学推理）、强化学习执行反馈（RLEF，提高编码能力）。这些更新使Gemma 3在LMArena获得1338分。指令微调版本沿用Gemma 2的对话框格式，纯文本输入无需更新工具；图像输入则支持与文本交错。

多模态能力

Gemma 3集成了基于SigLIP的视觉编码器，训练时视觉模型保持冻结状态，不同规模之间保持一致。它能处理图像和视频输入，可分析图像、回答相关问题、对比图像、识别物体、读取文本。虽然设计分辨率为896×896，但通过自适应窗口算法，可以处理高分辨率和非正方形图像。例如，上传一张日语空调遥控器图片，询问如何调高温度，Gemma 3能根据图像中“暖房”文字分析出这是加热按钮；上传超市购物清单，也能准确回答支付金额。

LLM竞技场表现

LMSYS聊天机器人竞技场让真人评委匿名对比模型。Gemma 3 27B IT获得1338分，跻身前十，得分高于其他不会“思考”的开源模型，如DeepSeek-V3（1318分）、LLaMA 3 405B（1257分）、Qwen2.5-70B（1257分），而这些模型规模要大得多。相比Gemma 2（1220分），新版本提升明显。需要注意的是，Elo分数不包含视觉能力。

基于Elo评级系统，Grok-3-Preview-02-24以1412分居首，Gemma-3-27B-IT排名第9。

标准基准测试

下表展示了最终模型在各种基准测试上的表现，仅对比了之前版本和Gemini 1.5。团队没有直接与外部模型比较，因为各家测试条件不同，直接对比可能不够公平。

Gemini 1.5、Gemini 2.0以及Gemma 2和Gemma 3不同参数版本在MMLU-Pro、LiveCodeBench、Bird-SQL、MATH、HiddenMath等任务上的性能表现。

预训练能力探测

预训练过程中，团队使用几个标准基准测试作为“探针”，确保模型掌握通用技能。下图比较了Gemma 2和Gemma 3预训练模型在科学、代码、事实性、多语言、推理和视觉方面的表现。尽管增加了视觉能力，新版在大多数类别上都有提升。多语言能力是关注重点，但去污染技术始终存在污染风险，结论需要谨慎对待。

无缝集成，工具生态全面升级

Gemma 3不仅模型性能提升，还带来了强大的工具集成。ShieldGemma 2可完美集成到现有工作流中。支持Hugging Face Transformers、Ollama、JAX、Keras、PyTorch、Google AI Edge、UnSloth、vLLM、Gemma.cpp等。开发者可在Google AI Studio中立即体验全部功能，或通过Kaggle、Hugging Face下载模型。改进的代码库支持高效微调和推理，无论是Colab、Vertex AI还是消费级GPU都能轻松训练。部署环境包括Vertex AI、Cloud Run、Google GenAI API、本地等。英伟达针对Gemma 3做了深度优化，从Jetson Nano到Blackwell芯片都能获得极致性能。NVIDIA API中已推出Gemma 3，只需一个API调用即可快速原型开发。此外，Gemma 3也针对Google Cloud TPU优化，并通过开源ROCm堆栈与AMD GPU集成。CPU执行方面，Gemma.cpp提供直接方案。

Gemma 3技术报告

模型架构

Gemma 3沿用解码器Transformer结构，大部分架构元素与前两代类似。采用分组查询注意力（GQA），结合RMSNorm的后归一化和前归一化。用QK-norm替换了Gemma 2的软上限。关键区别在于：5:1的局部/全局层交错设计（5层局部滑动窗口对应1层全局自注意力，第一层为局部层）；长上下文支持（最大128K token，1B模型仅32K）。全局层将RoPE基准频率从10K提高到1M，局部层保持10K，并采用位置插值扩展全局层适用范围。

视觉模态

视觉编码器：采用400M规模的SigLIP编码器变体（基于Vision Transformer的模型），输入为896×896方形图像，在视觉助手任务数据上微调。
Pan & Scan机制：为解决固定分辨率下非方形或高分辨率图像的问题，推理时引入自适应窗口算法，将图像划分为不重叠的裁剪区域，每个区域调整至896×896后输入编码器。

预训练

预训练采用与Gemma 2相似的知识蒸馏方法。
训练数据：27B模型在14T token上训练，12B用12T，4B用4T，1B用2T。
知识蒸馏：每个token采样256个logit，按教师概率分布加权，学生通过交叉熵学习。

计算基础设施

使用TPUv4、TPUv5e、TPUv5p训练，各模型配置经优化以最小化训练步骤执行时间。

指令微调

预训练模型通过改进的后训练方法转变为指令微调模型。后训练依赖于改进的知识蒸馏技术（来自大型IT教师模型），结合基于BOND、WARM、WARP算法的强化学习微调阶段。
强化学习目标：使用多种奖励函数提升帮助性、数学、编程、推理、指令遵循和多语言能力，同时最小化有害性。包括加权平均奖励模型、代码执行反馈、数学真实奖励。
数据过滤：过滤掉含个人信息、不安全内容、错误自我识别、重复样本的数据。加入鼓励准确归因、谨慎表述和适当拒答的子集，减少幻觉并提升事实性。
[BOS] token：预训练和指令微调模型都以[BOS] token开头，需显式添加。具体格式示例见表4。

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：谷歌Gemma 3上线 单GPU可跑27B多模态超越o3-mini要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://www.53ai.com/news/OpenSourceLLM/2025031383026.html

ai 人工智能

上一篇：RAG为何必须使用Rerank重排序机制

下一篇：捷通华声荣获中国人工智能金雁奖四大奖项

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

谷歌Gemma 3上线 单GPU可跑27B多模态超越o3-mini