AI协作模型在医学考试中展现高准确率
2025-10-11 15:40
收藏

美国巴尔的摩研究员Yahya Shaikh及其团队在《公共科学图书馆·医学》杂志发布研究,揭示由五个人工智能模型组成的委员会通过迭代讨论达成共识,在美国医师执照考试(USMLE)三个阶段的325道医学题目中分别实现97%、93%和94%的准确率。这一成果表明,AI协作模型在医学知识测试中的表现显著优于单实例模型。

研究人员利用协作式人工智能进行美国医学考试

传统大型语言模型(LLM)在医学考试中虽表现提升,但面对同一问题多次回答时易产生多样性结果,甚至出现错误或“幻觉”答案。针对这一局限,研究团队构建了基于OpenAI GPT-4的多实例AI代理委员会,通过协调交流与迭代审议机制优化答案。当委员会成员对问题响应不一致时,引导算法会总结各推理路径,要求重新审议并修正答案。实验显示,该系统在USMLE基础生物医学、临床诊断与管理三类题目中,第一步至第三步的共识准确率分别达97%、93%和94%,远超单模型表现。即使初始未达成一致,AI审议委员会仍能通过83%的正确率共识,并纠正超半数(53%)的多数票错误答案。

研究团队强调,AI协作模型的核心价值在于通过多样性视角完善答案,而非追求单一“正确性”。Shaikh指出:“多AI系统商议后,在无特殊训练或医疗数据条件下取得USMLE考试历史最高准确率,证明结构化对话可实现自我纠正,集体表现优于个体。”研究员Zishan Siddiqui进一步解释,该方法将AI响应的变异性转化为优势,允许系统多次尝试、比较并修正,未来可融入教育工具及临床护理。研究员Zainab Asiyah则从语义熵角度分析,AI的交流过程揭示了其“人性化”的决策逻辑,即通过说服与观点调整达成更优解。尽管该范式尚未在实际临床场景验证,但其为医疗AI的可靠性提升提供了新路径。

本简讯来自全球互联网及战略合作伙伴信息的编译与转载,仅为读者提供交流,有侵权或其它问题请及时告之,本站将予以修改或删除,未经正式授权严禁转载本文。邮箱:news@wedoany.com