华大基因研究院与之江实验室周四联合发布全球首个可部署的百亿参数基因组模型Genos。该基础模型支持长达100万碱基对的超长上下文分析,并能实现单碱基分辨率的精准识别,为基因组学研究提供了新的分析工具。
现有基因组分析模型大多基于有限参考基因组进行训练。Genos整合了人类泛基因组参考联盟等多个权威公共资源,首次使用来自全球的636个高质量“端粒到端粒”人类基因组作为训练数据,提升了模型对人类遗传多样性的理解能力。
在算法架构上,该基因组模型采用“混合专家”框架,通过精准调度相关算法协同处理,在保持百亿级参数规模的同时降低了推理成本。测试结果显示,Genos在致病突变解读任务中的准确率达到92%,结合科学基础模型后准确率可提升至98.3%。
华大基因研究院相关负责人表示,这一基础模型已在HuggingFace、ModelScope等平台开源,提供12亿和100亿参数两个版本。该基因组模型的开发应用将有助于推进人类遗传资源的深度挖掘与精准医学研究。









