为了更准确地评估人工智能模型的性能,德国埃尔朗根-纽伦堡大学(FAU)和德国亥姆霍兹萨尔药物研究所(HIPS)的生物信息学家携手开发了一款名为DataSAIL的新工具。

DataSAIL能够自动对训练数据和测试数据进行排序,确保它们之间的差异最大化,从而有效评估人工智能模型在不同数据条件下的可靠性。研究人员已在《自然通讯》杂志上详细阐述了这一创新方法。
在机器学习领域,数据的分割对于模型的训练和测试至关重要。佛罗里达大西洋大学生物医学工程人工智能系教授David Blumenthal指出:“只有当测试数据与训练数据存在显著差异时,我们才能确定模型在处理新数据,即所谓的分布外数据时的表现。”然而,传统算法往往难以实现这种优化的数据分割,导致人工智能模型的性能被高估。
DataSAIL的出现,为这一难题提供了解决方案。它能够自动分割数据集,使训练数据和测试数据尽可能地不同,从而避免了误判,为机器学习领域树立了新的标准。“DataSAIL是一款免费工具,适用于所有类型的数据,”Blumenthal强调,“用户只需定义一些参数,DataSAIL就能自动且一致地完成数据分割工作。”
值得一提的是,DataSAIL还是首个能够自动拆分交互数据的工具。在药物研究等领域,这些多维数据发挥着举足轻重的作用。通过DataSAIL,研究人员可以更准确地评估人工智能模型对改变的药物分子和不同蛋白质的响应效果。
此外,DataSAIL还能考虑类别特征,如训练和测试数据中男性和女性受试者的均匀分布,从而防止模型测试中某一性别得出不切实际的结果。
展望未来,研究人员计划进一步开发DataSAIL工具,以减少算法的运行时间,并为各种实际场景更精确地准备数据。
更多信息: Roman Joeres 等人,《利用 DataSAIL 进行数据拆分以避免信息泄露》,《自然通讯》(2025 年)。期刊信息: 《自然通讯》













京公网安备 11010802043282号