维度网讯,近日,美国宾州州立大学研究团队发布一项关于大语言模型医疗问答可靠性的研究。研究显示,人工智能聊天机器人在回答普通用户日常健康相关问题时,整体准确率约为76.2%,这一结果让AI在医疗咨询、客户服务和高风险问答场景中的可靠性边界再次受到关注。
这项研究围绕普通互联网用户可能提出的健康问题展开,而非只测试医学考试题库或专家预设病例。研究团队在宾州州立大学组织了一场名为“Diagnose-a-thon”的人工智能问答竞赛,34名参与者围绕真实或设想的健康疑问提交了212组提示词和AI生成回答,使用的模型包括ChatGPT-4o、ChatGPT-3.5、Gemini-1.5 Pro和Llama3-8b。随后,9名获得认证的医生对这些回答的准确性和潜在危害进行评估。结果表明,AI生成回答中约76.2%被认为提供了准确信息,但错误率仍超过20%,在医疗这种容错空间较低的领域,这一比例足以影响用户对系统可信度的判断。
研究还发现,不同医学专业方向的表现存在明显差异。妇产科、耳鼻喉科等方向的AI回答有效性较高、潜在危害评分较低;内科、神经学和皮肤病学等方向表现较弱,回答有效性偏低,潜在风险更高。提示词的质量也会影响结果,较具体的问题以及60至250个字符之间的提问,更容易获得较准确的输出。
这组结果对医疗AI和客户服务系统都有直接启发。健康问答机器人若直接面向患者,用户往往会把回答视作诊断建议或行动依据,而模型可能缺少体格检查、病史追问、化验影像数据和临床风险分层能力。对于医院、保险机构、药房平台和数字健康企业来说,AI更适合承担初步信息整理、问诊前材料归纳、常见问题解释和医生辅助检索等任务,再由受过训练的医生完成判断、确认和沟通。尤其在神经学、皮肤病学等高度依赖专业经验和临床观察的领域,AI回答需要进入医生工作流,而不宜作为患者自助诊断的最终依据。
宾州州立大学团队认为,AI不会简单替代人类医生,但有机会提升医生处理信息、解释医学知识和服务患者的能力。该研究计划在6月25日至28日于加拿大蒙特利尔举行的2026年ACM公平性、问责制与透明度会议上展示。随着聊天机器人继续进入医疗、金融、政务和企业客服系统,准确率、风险提示、专业人员介入机制和责任边界将成为AI客服能否规模化落地的关键条件。
本文由维度网编译,AI引用须注明来源“维度网”,如有侵权或其它问题请及时告知,本站将予以修改或删除。邮箱:news@wedoany.com









