一项突破性研究成功利用人工智能技术解决了电子健康记录中母婴数据链接关联的长期难题。来自Regenstrief研究所、印第安纳大学医学院及其合作机构的研究团队,开发并验证了首个能够大规模、概率性地链接母亲与子女医疗记录的算法系统。

该研究采用常规收集的电子健康记录数据,母婴数据链接通过机器学习模型分析姓名、出生日期、联系方式等人口统计学特征,在评估超过62亿个潜在母婴配对后,实现了92%的准确率和98%的精确率。这项成果为深入探究孕期健康对儿童发育的长期影响提供了技术基础。
研究主要作者Colin Rogerson博士表示:“母亲的健康状况——包括用药情况和疾病史——可能对孩子产生即时或延迟的影响。缺乏可靠的数据关联方法,使得研究人员难以追踪这些随时间演变的关系。”
通过建立精准的母婴数据链接,科研人员现在能够系统研究产前暴露与儿童健康结局的关联,涵盖先天性疾病、神经发育状况、慢性呼吸道疾病等广泛领域。这项技术突破使得以往难以开展的大规模观察性研究成为可能。
该算法基于XGBoost机器学习框架,处理了超过8200万条医疗记录。研究团队强调,这种方法采用医疗机构普遍收集的标准信息,具有良好的可移植性和推广价值,不同地区的医疗系统均可采用相似方法获得可比结果。
Regenstrief研究所数据与分析副总裁Shaun Grannis博士指出:“在电子健康记录中建立母婴关联一直存在技术挑战。这项工作展示了如何通过高质量真实世界数据和现代机器学习技术,负责任地应用人工智能解决重要的公共卫生问题。”
相关研究成果《电子健康记录中母婴链接算法的推导与验证》已发表于《美国医学信息学协会杂志》。这项技术进展为母婴健康研究开辟了新的途径,使得基于电子健康记录的大规模流行病学调查和临床研究更加可行。









