谷歌发布MedGemma 1.5 4B与MedASR医疗模型

2026-01-14 11:26

关键词:

当地时间2026年1月13日，谷歌宣布更新开源医疗模型MedGemma至1.5 4B版本，并同步推出医疗语音转文本模型MedASR，进一步拓展医疗AI在影像处理与语音交互领域的应用边界。此次更新基于开发者社区反馈，聚焦多模态医疗数据处理能力提升，为全球健康科技开发者提供更高效的工具支持。

医疗模型MedGemma 1.5 4B版本核心升级体现在医疗影像与文本处理能力。在影像支持方面，该模型从二维图像分析扩展至三维高维数据，新增对CT、MRI三维体积影像及全切片组织病理学影像的解读功能。开发者可输入多切片影像序列或病理切片，结合任务提示生成分析结果。内部测试显示，其在疾病相关CT发现分类准确率提升至61%(较前代提高3%)，MRI分类准确率达65%(提高14%)，组织病理学切片分析的ROUGE-L评分提升至0.49(提高0.47)。文本处理能力方面，通过引入新数据集与训练技术，医疗模型MedGemma 1.5 4B在医学问答任务MedQA中的准确率提升至69%(提高5%)，电子健康记录问答EHRQA准确率达90%(提高22%)。

同步发布的MedASR模型专注于医疗领域语音识别，针对专业术语与复杂语境优化。与通用模型Whisper large-v3相比，其在胸部X光听写任务中词错误率降低58%(从12.5%降至5.2%)，在综合医疗听写测试中错误率降低82%(从28.2%降至5.2%)，显著提升医疗场景下的语音交互效率。

全球开发者已基于医疗模型MedGemma开展多样化应用实践。马来西亚健康科技公司Qmed Asia将其适配为临床实践指南对话界面，覆盖150余项指南，提升日常临床决策支持实用性;中国台湾健保署利用该模型从3万余份病理报告中提取关键数据，辅助肺癌手术术前评估。谷歌强调，MedGemma与MedASR模型旨在为开发者提供研究起点，其输出需经独立验证与适配，不可直接用于临床诊断或患者管理决策。

目前，用户可通过Hugging Face平台或谷歌云Vertex AI获取MedGemma 1.5 4B与MedASR模型。谷歌同步启动MedGemma影响力挑战黑客马拉松，鼓励开发者探索创新应用场景。

美国