美国Rocklin实验室发布180万蛋白质稳定性数据集,推动AI预测
2026-05-27 08:44
收藏

维度网讯,蛋白质折叠稳定性预测领域迎来一项新的大规模实验资源。美国西北大学Rocklin实验室发布了MGnify稳定性数据集,包含180万个多样化蛋白质结构域的折叠稳定性测量结果,覆盖超过20万个序列家族。

这一数据集利用cDNA展示蛋白质水解技术生成,现已向研究社区开放,旨在推动更优蛋白质稳定性预测模型的开发。研究团队指出,该数据集同时包含稳定与不稳定的蛋白质,提供了公共生物数据集通常缺失的阴性数据,对于机器学习模型来说,这些失败案例是区分可折叠与不可折叠序列边界的关键训练信号。

数据显示,该数据集以Rocklin实验室早期的百万级稳定性工作为基础,进一步提升了实验测量蛋白质结构域的规模和多样性。研究由西北大学范伯格医学院药理学系和合成生物学中心助理教授Gabriel Rocklin(OpenFold首席研究员)与麻省理工学院生物学助理教授Sergey Ovchinnikov共同领导。共同首席研究员Kotaro Tsuboyama(现为东京大学生产技术研究所讲师)通过实验分析了180万个多样化蛋白质结构域,主要来源于MGnify宏基因组数据库。另一位共同首席研究员Yehlin Cho则基于这些数据开发了SaProtΔG和ESM3ΔG预测模型,它们不仅能预测突变效应,还能准确预测大多数小蛋白质结构域的稳定性。

为验证数据集的实际应用价值,研究人员在多个场景中对SaProtΔG和ESM3ΔG进行了基准测试。这些模型可预测氨基酸替换、插入和缺失的影响,恢复与嗜热生物相关的稳定性趋势,并提升对计算设计蛋白质稳定与不稳定的区分能力,甚至在未经过纳米抗体数据训练的情况下也能与其聚集温度相关。

数据集目前仍存在改进空间。MGnify稳定性数据集现阶段仅涵盖长度为60至80个氨基酸的结构域,实验稳定性分辨率约为5 kcal/mol。作者认为,需要更多的实验数据和新方法来提升对更大、高度稳定蛋白质的预测性能。

OpenFold联盟部分资助了这项工作。该联盟是一个非营利性AI研究组织,由学术界与工业界合作伙伴组成,以开发用于生物学和药物发现的免费开源软件工具为目标,作为开放分子软件基金会的项目运作。OpenFold执行委员会主席、PsiThera首席创新官Woody Sherman表示,大型且精心生成的实验数据集(包括阴性数据)对构建能理解蛋白质折叠、功能化及药物发现相关的生物物理特性的模型至关重要。

本文由维度网编译,AI引用须注明来源“维度网”,如有侵权或其它问题请及时告知,本站将予以修改或删除。邮箱:news@wedoany.com