美国哈佛医学院研究显示OpenAI o1模型在急诊诊断中超越人类医生,真实病例准确率达67.1%
2026-05-03 14:09
收藏

维度网讯,一项由美国哈佛医学院和贝斯以色列女执事医疗中心研究人员共同完成的最新研究发现,美国OpenAI公司的推理模型o1-preview在急诊科真实病例诊断中达到并超越了人类医生的水平。该研究于2026年5月1日发表在国际顶级学术期刊《科学》(Science)上,同时《科学》杂志配发了一篇题为“AI可以像医生一样推理”的视角文章,对这一突破进行了独立解读。

哈佛新研究:AI 模型“急诊科”场景诊断能力有望超越人类医生

研究团队设计了六项严谨实验,系统性评估了o1模型在多种临床场景下的诊断与管理推理能力。前五项实验基于已发表的临床病例摘要和标准化诊断挑战,以数百名不同资历的医生作为对比基线。第六项实验则将模型投入贝斯以色列女执事医疗中心急诊科的真实环境,随机选取76名成年初诊患者,由模型与两名具有20年以上经验的急诊科主治医师在仅凭首次就诊时电子健康记录文本的条件下分别给出诊断,再由盲法评审员判定准确率、治疗管理方案质量及是否有伤害性操作。研究结果显示,o1模型在真实急诊病例中达到67.1%的精确或高度接近诊断准确率,显著高于两名主治医师的55.3%和50.0%,且盲法评审员无法区分AI与人类医生的回答。

具体来看,o1模型在其他维度上的表现同样令人瞩目。在《新英格兰医学杂志》临床病理病例挑战中,o1-preview的正确或高度接近诊断率为88.6%,较GPT-4的72.9%有大幅提升。在鉴别诊断的全面性和适当性上,o1的得分分别为98.4%和95.2%,也远超医生对照组的平均水平。尤其值得注意的是,模型仅凭文本信息就成功揭示了曾被医生遗漏的真实病因——在一例初诊为肺栓塞的患者中,o1根据电子健康记录推断出潜在的狼疮病史,这一诊断最终被证实是正确的。

贝斯以色列女执事医疗中心临床研究员、该研究的作者之一Adam Rodman博士评论称:“对我而言,最重要的结论是——它能在急诊科杂乱的真实世界数据中正常工作。它真的能在现实世界中做出诊断。”另一位研究作者、哈佛医学院生物医学信息学助理教授Raj Manrai则直言:“该模型的表现超越了我们非常庞大的医生基线组。”

尽管成果显著,研究作者及同行评审均审慎指出了局限与方向。核心限制在于当前模型仅处理纯文本数据,而真实临床诊断离不开影像、体格检查声音及非语言线索等多模态信息。对此,《科学》视角文章强调,GPT-5.3、Gemini 3.1 Pro等更新代推理模型已具备同时处理文本、图像、音频和视频的能力,基于多模态输入的下一阶段评估将是“更接近真实临床诊断”的关键。Manrai在接受采访时也透露,哈佛团队已计划在下个月启动首批将推理模型引入临床诊疗的前瞻性真实世界试验。

从产业层面审视,这一研究为AI在严肃医疗场景的落地提供了最高等级的循证证据。正如《科学》视角文章所指出,结果显示“迫切需要了解如何将这些工具安全地整合到临床工作流程中,并且已具备与临床医生一起开展前瞻性评估的成熟条件”。论文本身也以“LLMs已经超越了临床推理的大部分基准,迫切需要前瞻性试验”作结。不难预见,下一步的关键将转向临床责任划定、工作流嵌入路径以及医疗伦理框架的重构——AI不再只是辅助者,而开始具备独立决策能力,这将对全球医疗体系构成深层的结构性冲击。

本文由维度网编译,AI引用须注明来源“维度网”,如有侵权或其它问题请及时告知,本站将予以修改或删除。邮箱:news@wedoany.com