维度网讯,AIRI研究所的科学家开发出名为Genatator的神经网络模型,该模型能够根据DNA序列构建基因图谱,为缺乏详细生物数据的基因组进行标注。模型接收DNA序列后,可确定基因边界、识别转录本类型并重建结构,区分基因、外显子、内含子及其他区域。

在DNA中寻找基因十分困难,因为基因没有通用的起始和终止信号,边界取决于短基序的组合,其意义由上下文决定。基因可能重叠并位于DNA的不同链上。
Genatator神经网络模型分阶段工作。模型首先寻找两条DNA链上可能的转录起始和终止位点,随后另一个模型检查该区域是否类似基因。分类器确定转录本类型后,分割模型细化基因结构并识别外显子和内含子。算法最后去除可疑预测并形成最终标注。
该方法与传统工具不同之处在于,模型不仅依赖预设规则。传统工具利用蛋白质编码基因的特征,如起始密码子、终止密码子和剪接信号,在非翻译区和长链非编码RNA上表现较差。新模型在大型基因组数据集上训练,直接在DNA中寻找模式。
这种方法对非模式生物尤为重要。人类和小鼠经过数十年研究已拥有详细注释,但大多数生物仅存在未标注的基因组组装。分析显示,NCBI数据库中4582个哺乳动物基因组组装中只有166个具有注释,没有注释的基因组很难用于研究。
系统能够识别两类基因:蛋白质编码基因和长链非编码RNA基因。对于这两类基因,系统确定外显子和内含子,对于蛋白质编码基因还额外标注CDS区域以及5'-UTR和3'-UTR区域。
Genatator在人类和包括海象、大象在内的38种哺乳动物基因上进行了训练。该模型在未参与训练的其他生物上也表现良好,其中包括果蝇Drosophila melanogaster、拟南芥Arabidopsis thaliana和酿酒酵母Saccharomyces cerevisiae。
该模型还发现了一些被称为"毒外显子"的罕见区域,这些外显子的包含可能导致RNA降解。即使在高品质注释中,这类元件也很少出现。开发人员特别关注基因边界的精度,因为一个核苷酸的错误可能导致读码框移位,扭曲蛋白质预测。
生物学博士、AIRI研究所及俄罗斯科学院西伯利亚分院细胞学与遗传学研究所(ИЦиГ СО РАН)首席研究员韦尼阿明·菲什曼(Veniamin Fishman)指出,新基因组的组装速度超过了标注速度,此类模型可以成为分析的第一步,从而更快获取候选基因图谱以供验证。
为评估质量,团队创建了公开排行榜,将模型与其他方案进行比较。在多项指标上,该模型表现最佳。训练数据集由"天狼星"科学与技术大学(Научно-технологический университет «Сириус»)及俄罗斯科学院西伯利亚分院细胞学与遗传学研究所(ИЦиГ СО РАН)的科学家准备。










