当地时间2026年1月13日,谷歌宣布更新开源医疗模型MedGemma至1.5 4B版本,并同步推出医疗语音转文本模型MedASR,进一步拓展医疗AI在影像处理与语音交互领域的应用边界。此次更新基于开发者社区反馈,聚焦多模态医疗数据处理能力提升,为全球健康科技开发者提供更高效的工具支持。

医疗模型MedGemma 1.5 4B版本核心升级体现在医疗影像与文本处理能力。在影像支持方面,该模型从二维图像分析扩展至三维高维数据,新增对CT、MRI三维体积影像及全切片组织病理学影像的解读功能。开发者可输入多切片影像序列或病理切片,结合任务提示生成分析结果。内部测试显示,其在疾病相关CT发现分类准确率提升至61%(较前代提高3%),MRI分类准确率达65%(提高14%),组织病理学切片分析的ROUGE-L评分提升至0.49(提高0.47)。文本处理能力方面,通过引入新数据集与训练技术,医疗模型MedGemma 1.5 4B在医学问答任务MedQA中的准确率提升至69%(提高5%),电子健康记录问答EHRQA准确率达90%(提高22%)。
同步发布的MedASR模型专注于医疗领域语音识别,针对专业术语与复杂语境优化。与通用模型Whisper large-v3相比,其在胸部X光听写任务中词错误率降低58%(从12.5%降至5.2%),在综合医疗听写测试中错误率降低82%(从28.2%降至5.2%),显著提升医疗场景下的语音交互效率。
全球开发者已基于医疗模型MedGemma开展多样化应用实践。马来西亚健康科技公司Qmed Asia将其适配为临床实践指南对话界面,覆盖150余项指南,提升日常临床决策支持实用性;中国台湾健保署利用该模型从3万余份病理报告中提取关键数据,辅助肺癌手术术前评估。谷歌强调,MedGemma与MedASR模型旨在为开发者提供研究起点,其输出需经独立验证与适配,不可直接用于临床诊断或患者管理决策。
目前,用户可通过Hugging Face平台或谷歌云Vertex AI获取MedGemma 1.5 4B与MedASR模型。谷歌同步启动MedGemma影响力挑战黑客马拉松,鼓励开发者探索创新应用场景。









