谷歌开源MedGemma：1.5B多模态AI医疗模型详解

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

谷歌开源MedGemma：1.5B多模态AI医疗模型详解

热心网友时间：2026-01-16

转载

MedGemma 1.5 是什么

MedGemma 1.5是由谷歌推出并开源的多模态人工智能医学模型，它专为协同处理医学图像与文本信息而构建。该模型具备解析高维医学影像（如CT、MRI）、全切片数字病理图像（WSI）、跨时间点的纵向影像序列、解剖结构定位、非结构化医学文档理解，以及电子健康记录（EHR）语义解析等核心能力。其底层融合了SigLIP图像编码器与高性能语言模型，并在涵盖影像、临床文本、检验报告等多源真实世界医学数据上完成大规模预训练。在影像分类、视觉问答（VQA）、医学知识推理等关键评测任务中均展现出领先性能，广泛适用于科研探索与一线临床辅助场景。

MedGemma 1.5— 谷歌开源的多模态AI医疗模型

MedGemma 1.5 的核心能力

三维医学影像智能解析：能够高效建模和理解体积极医学影像（如CT、MRI），支持对复杂空间结构的深层语义识别。
全切片病理图像多区域联合分析：支持对超大尺寸数字病理切片进行分析区域同步建模，提升病灶识别与分级辅助能力。
时序影像动态对比分析：支持将当前检查影像与既往影像自动对齐比对，例如追踪肺部结节或心脏形态随时间的变化趋势。
解剖结构与异常区域精确定位：在胸部X光等二维影像中，以边界框形式标注关键解剖部位及可疑病变区域。
非结构化医学报告结构化提取：从自由文本格式的检验单、检查报告中精准识别并抽取数值、单位、参考范围及异常标识等结构化字段。
电子健康记录深度语义理解：可解析以自然语言书写的EHR内容，挖掘患者病史、用药、手术等关键临床线索。
跨模态图文协同推理：支持同时输入医学图像与相关文本描述，生成专业级影像解读、诊断建议或结构化报告。

MedGemma 1.5 的技术架构

纯解码器 Transformer 架构：沿用与Gemma 3一致的高效decoder-only设计，原生支持超长上下文（≥128K tokens），适配多模态长序列建模需求。
医学定制化 SigLIP 图像编码器：基于海量医学影像专项优化，兼容胸部X光、皮肤镜图像、眼底彩照、组织病理切片等多种模态影像输入。
统一多模态融合机制：图像与文本经各自编码器映射至共享语义空间后，在统一解码框架下完成跨模态对齐与联合推理。
面向医疗场景的指令微调：采用大量高质量医患对话、临床指南、报告撰写等指令数据进行定向优化，显著提升输出的专业性与实用性。
两阶段训练范式：先基于去标识化的真实临床数据开展大规模无监督预训练，再针对具体任务（如放射科报告生成、病理判读）进行监督微调，实现通用性与专业性的平衡。