俄罗斯AIRI研究所开发出基因标注神经网络Genatator

2026-07-05 16:22

关键词:

维度网讯，AIRI研究所的科学家开发出名为Genatator的神经网络模型，该模型能够根据DNA序列构建基因图谱，为缺乏详细生物数据的基因组进行标注。模型接收DNA序列后，可确定基因边界、识别转录本类型并重建结构，区分基因、外显子、内含子及其他区域。

在DNA中寻找基因十分困难，因为基因没有通用的起始和终止信号，边界取决于短基序的组合，其意义由上下文决定。基因可能重叠并位于DNA的不同链上。

Genatator神经网络模型分阶段工作。模型首先寻找两条DNA链上可能的转录起始和终止位点，随后另一个模型检查该区域是否类似基因。分类器确定转录本类型后，分割模型细化基因结构并识别外显子和内含子。算法最后去除可疑预测并形成最终标注。

该方法与传统工具不同之处在于，模型不仅依赖预设规则。传统工具利用蛋白质编码基因的特征，如起始密码子、终止密码子和剪接信号，在非翻译区和长链非编码RNA上表现较差。新模型在大型基因组数据集上训练，直接在DNA中寻找模式。

这种方法对非模式生物尤为重要。人类和小鼠经过数十年研究已拥有详细注释，但大多数生物仅存在未标注的基因组组装。分析显示，NCBI数据库中4582个哺乳动物基因组组装中只有166个具有注释，没有注释的基因组很难用于研究。

系统能够识别两类基因：蛋白质编码基因和长链非编码RNA基因。对于这两类基因，系统确定外显子和内含子，对于蛋白质编码基因还额外标注CDS区域以及5'-UTR和3'-UTR区域。

Genatator在人类和包括海象、大象在内的38种哺乳动物基因上进行了训练。该模型在未参与训练的其他生物上也表现良好，其中包括果蝇Drosophila melanogaster、拟南芥Arabidopsis thaliana和酿酒酵母Saccharomyces cerevisiae。

该模型还发现了一些被称为"毒外显子"的罕见区域，这些外显子的包含可能导致RNA降解。即使在高品质注释中，这类元件也很少出现。开发人员特别关注基因边界的精度，因为一个核苷酸的错误可能导致读码框移位，扭曲蛋白质预测。

生物学博士、AIRI研究所及俄罗斯科学院西伯利亚分院细胞学与遗传学研究所（ИЦиГ СО РАН）首席研究员韦尼阿明·菲什曼（Veniamin Fishman）指出，新基因组的组装速度超过了标注速度，此类模型可以成为分析的第一步，从而更快获取候选基因图谱以供验证。

为评估质量，团队创建了公开排行榜，将模型与其他方案进行比较。在多项指标上，该模型表现最佳。训练数据集由"天狼星"科学与技术大学（Научно-технологический университет «Сириус»）及俄罗斯科学院西伯利亚分院细胞学与遗传学研究所（ИЦиГ СО РАН）的科学家准备。

俄罗斯