麻省理工学院研究人员近日开发出一种新技术,能够解析基于大型语言模型的蛋白质预测系统的内部决策机制。这项研究由麻省理工学院西蒙斯数学教授邦妮·伯杰领导的团队完成,研究生昂卡尔·古杰拉尔作为第一作者,相关成果发表于《美国国家科学院院刊》。
近年来,蛋白质语言模型已广泛应用于生物医学领域,包括药物靶点识别和治疗性抗体设计。这些模型虽然预测准确度高,但其内部运作机制一直处于"黑匣子"状态,研究人员难以了解模型具体依据哪些蛋白质特征做出判断。
研究团队采用稀疏自编码器算法,首次成功解析了蛋白质语言模型的决策过程。该技术将蛋白质在神经网络中的表征从常规的480个节点扩展至20000个节点,使原本紧密压缩的信息得以分散呈现。通过这种方式,每个神经元节点能够更清晰地对应特定蛋白质特征。
为验证该技术的有效性,研究人员使用人工智能助手Claude对获得的稀疏表征进行分析。Claude成功将神经元激活模式与已知蛋白质特征进行关联,能够准确描述节点对应的生物功能特征,例如:"这个神经元似乎正在检测参与离子或氨基酸跨膜运输的蛋白质"。
研究表明,这些蛋白质语言模型主要关注蛋白质家族分类和多种代谢功能特征。该突破不仅提高了模型的可解释性,还为研究人员选择适合特定任务的模型提供了科学依据。邦妮·伯杰表示:"我们的工作对于增强依赖这些表征的下游任务的可解释性具有广泛的意义。"
蛋白质语言模型的可解释性技术突破将有助于加速新药研发和疫苗设计进程。通过理解模型决策依据,研究人员可以更有效地优化模型参数,提高预测准确性。未来,该技术还可能帮助生物学家发现尚未被认知的蛋白质功能特征。
更多信息: Berger和Bonnie,《稀疏自编码器揭示蛋白质语言模型表征中生物学可解释的特征》,《美国国家科学院院刊》(2025)。期刊信息: 美国国家科学院院刊













京公网安备 11010802043282号