DNA序列的微小变化能够影响生物体对环境和疾病易感性的反应。理解基因组序列变异的影响是当前的研究难题,特别是位于蛋白质编码区之外的非编码变异,其分子后果多样且难以解释。
Google DeepMind团队在《自然》杂志上发布了AlphaGenome模型。这一DNA序列分析工具通过预测调控变异效应来解析基因组功能,为遗传研究提供了新的方法。
AlphaGenome的应用范围包括识别新的治疗靶点和设计具有特定调控功能的合成DNA。该模型特别适合研究具有显著影响的罕见变异,例如可能导致罕见孟德尔疾病的遗传变化。
伦敦大学学院专注于血液恶性肿瘤研究的Marc Mansour教授表示:“确定不同非编码变异的相关性极具挑战性,尤其是在大规模分析时。这个工具将提供拼图中关键的一块,帮助我们建立更好的联系来理解像癌症这样的疾病。”
该模型以长达一百万个碱基对的DNA序列为输入,预测数千个表征调控活性的分子特性。这些特性包括不同细胞类型和组织中基因起始与终止位置、剪接位点、RNA产生以及DNA可及性。
长序列上下文对于覆盖受远距离基因调控的区域至关重要。以往的模型需要在序列长度和分辨率之间权衡,限制了可建模的模式范围。
在效率方面,AlphaGenome通过比较突变和未突变序列的预测,能够在一秒钟内评估遗传变异对一系列分子特性的影响。
许多罕见遗传疾病,如脊髓性肌萎缩症和某些形式的囊性纤维化,可能与RNA剪接错误有关。AlphaGenome能够直接从序列中明确建模这些连接点的位置和表达水平,从而深入了解遗传变异对RNA剪接的影响。
纪念斯隆-凯特琳癌症中心的首席研究员Caleb Lareau博士指出:“我们首次拥有了一个单一模型,它统一了长距离上下文、碱基级精度和在整个基因组任务范围内的先进性能。”
模型的训练数据来自大型公共联盟,包括ENCODE、GTEX、4D Nucleome和FANTOM5。这些联盟通过实验测量了数百种人类和小鼠细胞类型和组织中的基因调控特性。
作者在研究中提到,准确捕捉远距离调控元件的影响仍然是AlphaGenome的一个局限,例如那些距离10万个DNA碱基的元件。提高模型捕捉细胞和组织特异性模式的能力是另一个优先事项。
AlphaGenome目前主要针对单个遗传变异的性能进行评估,尚未针对个人基因组预测进行验证。此外,虽然模型能够预测分子结果,但遗传变异如何导致复杂性状或疾病涉及更广泛的生物过程,包括发育和环境因素,这些超出了模型的直接范围。
DeepMind已使AlphaGenome可用于非商业研究,为科学界提供了新的研究工具。









