面包屑图标 当前位置: 首页
AI资讯
热点详情

谷歌Gemma 3上线 单GPU可跑27B多模态超越o3-mini

AI热点日报
AI热点日报时间:2026-07-03
热点解读

谷歌的开源模型家族再添新成员——Gemma 3正式发布。在巴黎开发者日活动中,第三代Gemma原生支持多模态能力,上下文长度达到128k,并一口气开源了四种参数规模:1B、4B、12B和27B。最令人振奋的是,仅需一块GPU或TPU即可运行,大幅降低了部署门槛。 在LMArena竞技场中,Gemma

谷歌的开源模型家族再添新成员——Gemma 3正式发布。在巴黎开发者日活动中,第三代Gemma原生支持多模态能力,上下文长度达到128k,并一口气开源了四种参数规模:1B、4B、12B和27B。最令人振奋的是,仅需一块GPU或TPU即可运行,大幅降低了部署门槛。

刚刚,谷歌Gemma 3上线!单GPU最强多模态手机可跑,27B完胜o3-mini

在LMArena竞技场中,Gemma 3获得了1339 ELO的高分。仅凭27B参数,它击败了o1-preview、o3-mini high、DeepSeek V3,成为仅次于DeepSeek R1的顶尖开源模型之一。这一成绩相当亮眼——要知道,许多参数量更大的模型也只能甘拜下风。

具体而言,Gemma 3各版本的训练数据量分别为:1B版本2T token,4B版本4T token,12B版本12T token,27B版本14T token。它们通晓140多种语言,支持图像输入、文本输出,还能进行结构化输出和函数调用。多项基准测试显示,相比上一代,27B模型在数学性能上提升了33到45分。即便与闭源的Gemini 1.5、2.0对比,Gemma 3-27B也基本不逊于Flash版本。与此同时,Gemma 3的26页技术报告也已正式开放。

论文地址:https://storage.googleapis.com/deepmind-media/gemma/Gemma3Report.pdf
项目地址:https://huggingface.co/collections/google/gemma-3-release-67c6c6f89c4f76621268bb6d

Gemma系列问世一年以来,下载量已突破1亿次,衍生模型超过6万个。此次第三代发布,无疑是谷歌在开源社区迈出的又一个重要里程碑。

27B打进全球Top 10,手机笔记本轻松运行

Gemma 3是谷歌迄今为止最先进、最便携的开源模型,技术基础与Gemini 2.0一脉相承。它专为端侧设备设计——从手机、笔记本到工作站,开发者可以在需要的地方直接运行AI应用。

  • 使用世界最佳单设备加速模型进行开发:Gemma 3在LMArena排行榜的人类偏好评估中超越了Llama-405B、DeepSeek-V3和o3-mini,单GPU或TPU即可运行,带来独特的开发体验。
  • 支持140种语言,覆盖全球:开箱即用支持35种以上语言,预训练覆盖140多种。
  • 创建具有高级文本和视觉推理能力的AI:轻松开发可分析图像、文本和短视频的应用。
  • 通过扩展的上下文窗口处理复杂任务:128k token上下文窗口,让应用能处理海量信息。
  • 使用函数调用创建AI驱动的工作流:支持函数调用和结构化输出,可自动化任务。
  • 使用量化模型更快实现高性能:官方量化版本,在保持精度的同时减少计算需求。

根据Chatbot Arena Elo评分排名,Gemma 3 27B得分极高,而其他模型通常需要多达32个GPU,它只需1个即可运行。

如何训练?

在预训练和后训练阶段,Gemma 3采用了蒸馏技术,并通过强化学习与模型合并组合进行优化。这种方法在数学、编码、指令跟随方面提升显著。它还采用全新分词器,支持140多种语言,使用JAX框架在Google TPU上训练。后训练阶段主要包括四个组件:从更大指令模型蒸馏到预训练检查点、人类反馈强化学习(RLHF)、机器反馈强化学习(RLMF,增强数学推理)、强化学习执行反馈(RLEF,提高编码能力)。这些更新使Gemma 3在LMArena获得1338分。指令微调版本沿用Gemma 2的对话框格式,纯文本输入无需更新工具;图像输入则支持与文本交错。

多模态能力

Gemma 3集成了基于SigLIP的视觉编码器,训练时视觉模型保持冻结状态,不同规模之间保持一致。它能处理图像和视频输入,可分析图像、回答相关问题、对比图像、识别物体、读取文本。虽然设计分辨率为896×896,但通过自适应窗口算法,可以处理高分辨率和非正方形图像。例如,上传一张日语空调遥控器图片,询问如何调高温度,Gemma 3能根据图像中“暖房”文字分析出这是加热按钮;上传超市购物清单,也能准确回答支付金额。

LLM竞技场表现

LMSYS聊天机器人竞技场让真人评委匿名对比模型。Gemma 3 27B IT获得1338分,跻身前十,得分高于其他不会“思考”的开源模型,如DeepSeek-V3(1318分)、LLaMA 3 405B(1257分)、Qwen2.5-70B(1257分),而这些模型规模要大得多。相比Gemma 2(1220分),新版本提升明显。需要注意的是,Elo分数不包含视觉能力。

基于Elo评级系统,Grok-3-Preview-02-24以1412分居首,Gemma-3-27B-IT排名第9。

标准基准测试

下表展示了最终模型在各种基准测试上的表现,仅对比了之前版本和Gemini 1.5。团队没有直接与外部模型比较,因为各家测试条件不同,直接对比可能不够公平。

Gemini 1.5、Gemini 2.0以及Gemma 2和Gemma 3不同参数版本在MMLU-Pro、LiveCodeBench、Bird-SQL、MATH、HiddenMath等任务上的性能表现。

预训练能力探测

预训练过程中,团队使用几个标准基准测试作为“探针”,确保模型掌握通用技能。下图比较了Gemma 2和Gemma 3预训练模型在科学、代码、事实性、多语言、推理和视觉方面的表现。尽管增加了视觉能力,新版在大多数类别上都有提升。多语言能力是关注重点,但去污染技术始终存在污染风险,结论需要谨慎对待。

无缝集成,工具生态全面升级

Gemma 3不仅模型性能提升,还带来了强大的工具集成。ShieldGemma 2可完美集成到现有工作流中。支持Hugging Face Transformers、Ollama、JAX、Keras、PyTorch、Google AI Edge、UnSloth、vLLM、Gemma.cpp等。开发者可在Google AI Studio中立即体验全部功能,或通过Kaggle、Hugging Face下载模型。改进的代码库支持高效微调和推理,无论是Colab、Vertex AI还是消费级GPU都能轻松训练。部署环境包括Vertex AI、Cloud Run、Google GenAI API、本地等。英伟达针对Gemma 3做了深度优化,从Jetson Nano到Blackwell芯片都能获得极致性能。NVIDIA API中已推出Gemma 3,只需一个API调用即可快速原型开发。此外,Gemma 3也针对Google Cloud TPU优化,并通过开源ROCm堆栈与AMD GPU集成。CPU执行方面,Gemma.cpp提供直接方案。

Gemma 3技术报告

模型架构

Gemma 3沿用解码器Transformer结构,大部分架构元素与前两代类似。采用分组查询注意力(GQA),结合RMSNorm的后归一化和前归一化。用QK-norm替换了Gemma 2的软上限。关键区别在于:5:1的局部/全局层交错设计(5层局部滑动窗口对应1层全局自注意力,第一层为局部层);长上下文支持(最大128K token,1B模型仅32K)。全局层将RoPE基准频率从10K提高到1M,局部层保持10K,并采用位置插值扩展全局层适用范围。

视觉模态

视觉编码器:采用400M规模的SigLIP编码器变体(基于Vision Transformer的模型),输入为896×896方形图像,在视觉助手任务数据上微调。
Pan & Scan机制:为解决固定分辨率下非方形或高分辨率图像的问题,推理时引入自适应窗口算法,将图像划分为不重叠的裁剪区域,每个区域调整至896×896后输入编码器。

预训练

预训练采用与Gemma 2相似的知识蒸馏方法。
训练数据:27B模型在14T token上训练,12B用12T,4B用4T,1B用2T。
知识蒸馏:每个token采样256个logit,按教师概率分布加权,学生通过交叉熵学习。

计算基础设施

使用TPUv4、TPUv5e、TPUv5p训练,各模型配置经优化以最小化训练步骤执行时间。

指令微调

预训练模型通过改进的后训练方法转变为指令微调模型。后训练依赖于改进的知识蒸馏技术(来自大型IT教师模型),结合基于BOND、WARM、WARP算法的强化学习微调阶段。
强化学习目标:使用多种奖励函数提升帮助性、数学、编程、推理、指令遵循和多语言能力,同时最小化有害性。包括加权平均奖励模型、代码执行反馈、数学真实奖励。
数据过滤:过滤掉含个人信息、不安全内容、错误自我识别、重复样本的数据。加入鼓励准确归因、谨慎表述和适当拒答的子集,减少幻觉并提升事实性。
[BOS] token:预训练和指令微调模型都以[BOS] token开头,需显式添加。具体格式示例见表4。

热点追踪提示词
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:谷歌Gemma 3上线 单GPU可跑27B多模态超越o3-mini要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
来源:https://www.53ai.com/news/OpenSourceLLM/2025031383026.html
ai 人工智能

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关热点
AI热点2026-07-03 20:42
AI驱动的员工英语口语教练Lucida

LucidaAI是一款面向企业的AI英语口语教练,通过实时对话提供发音、语法、词汇和流利度的个性化反馈。采用端到端加密并支持合规定制,定价策略注重普及化,旨在以低成本提升团队英语沟通能力。

AI热点2026-07-03 20:42
Screenshot2Code:截图转代码工具

Screenshot2Code工具能够从截图中自动识别代码,并将其转换为可直接运行的代码。支持Python、HTML及API接口信息提取,帮助开发者快速复用他人分享的代码片段,从而显著提升工作效率。这个工具极大简化了代码复用过程。

AI热点2026-07-03 20:42
SpeakStruct 语音转结构化数据 可自定义模板

SpeakStruct通过可自定义模板将语音转换为结构化数据,适用于会议记录、客户通话等场景。核心功能包括自定义模板、准确转录和随处捕捉,使口语信息直接转化为可用的数据资产。

AI热点2026-07-03 20:41
AI驱动语音治疗应用 IzzyAI

IzzyAI是一款AI驱动的语音治疗应用,提供全天候服务。通过智能治疗师头像互动,系统评估并治疗五种常见语音语言障碍,融合语音与面部识别技术给予实时反馈。内置综合评估、个性化练习、进展报告及支持性社区,提升治疗效果。

延伸阅读