中国百川智能M4医疗大模型发布，综合得分68.6

2026-06-19 11:52

维度网讯，界面新闻采访的三甲医院医生表示，越来越多患者携带AI生成的判断结果前来就诊，增加了医患沟通成本。有医生反馈，一个上午接诊的30个号中，25个患者都带着AI结论。在此背景下，百川智能发布Baichuan-M4医疗增强大模型，该模型基于通用大模型进行结构性重构与医疗专项增强，旨在提升AI在医疗决策中的可靠性。

在最新的HealthBench评测中，M4综合得分68.6，Hard任务得分49.7，幻觉率降至3.3%。在更贴近真实临床环境的HealthBench Professional评测中，M4的基础推理得分为55.1，高于GPT-5.5的51.8分。

M4的能力提升体现在四个层面。一是动态问诊能力，基于SCAN-bench 2.0体系，模型训练场景从单次标准化问诊扩展到多轮访视与复杂患者画像。在SCAN-bench评测中，M4初诊得分79.0、复诊得分74.7；长上下文临床记忆得分86.9，较上一代M3提升21.1分。二是循证能力，M4构建了原子化临床路径体系，将医学指南拆解为1000余个可复用临床决策单元，覆盖200余种常见疾病的完整诊疗流程。在Baichuan-EBM评测中，循证引用精度达到90.0，显著高于GPT-5.5的54.7。

三是调度能力，M4引入Harness架构，模型可自主决定何时追问、检索证据或调出病史，同时实现在实时安全约束下完成操作。四是全病程记忆，模型可打通历史病历、多轮问诊、化验趋势与用药反馈，在多次对话中掌握患者既往病史与指标变化。

基于M4模型的C端产品百小医已在部分用户中进行内测。该产品可在多轮对话中逐步补齐病史信息，缩小风险判断范围，并在需要时引导用户就医。根据百川智能公布的数据，在中国医学科学院肿瘤医院（肿瘤科）、首都医科大学附属北京儿童医院（儿科）、上海交通大学瑞金医院（呼吸与危重症医学科）等机构的测试中，75个患者群内27天共产生6944条对话，百小医安全性达到99.6%，深度互动率达到60%-73%。

百川智能将M4定位为医疗场景的“大脑”，百小医则为连接用户的“身体”。前者负责专业推理、循证和长期记忆，后者将这种能力送入家庭场景。该公司计划通过“双医模式”让AI负责诊室外的长期陪伴、信息整理和风险提醒，而真人医生则负责诊断与治疗决策。

本文由维度网编译，AI引用须注明来源“维度网”，如有侵权或其它问题请及时告知，本站将予以修改或删除。邮箱：news@wedoany.com

中国

医疗健康工程数字健康与智慧医疗

本文来自全球互联网及战略合作伙伴信息的编译与转载,仅为读者提供交流,有侵权或其它问题请及时告知,本站将予以修改或删除,未经正式授权严禁转载本文。邮箱:news@wedoany.com

上一篇：美国医疗技术公司Channel Robotics融资460万美元

下一篇：美国Memento完成9300万美元A轮融资，获双抗全球许可