维度网讯,煤炭共性技术研究院研发的矿山行业后训练大数据集煤矿安全知识问答微调大数据集,近日在中国国家数据集管理服务系统(https://www.ndsms.cn)正式上线。这是矿山行业首个大规模后训练大数据集登陆国家级数据集管理平台。该大数据集由煤炭共性技术研究院研发,旨在为矿山行业人工智能模型后训练提供高质量、专业化的数据支撑。
该大数据集规模为9.35GB,内含超十亿token,以纯文本形式呈现,采用行业深度问答对(QA对)格式构建,是目前矿山行业公开的最大规模大数据集(以词元计数)。大数据集全面面向煤炭开采与洗选等核心业务领域,聚焦智慧能源发展方向。国家数据集管理服务系统由国家数据局指导、国家数据发展研究院建设和运营,采用“物理分散、逻辑集中”的数据集管理体系,提供覆盖大数据集全生命周期的公共服务能力。
煤炭共性技术研究院本次上线的大数据集,覆盖煤矿安全生产规程、采掘工艺、矿山设备运维规范、能源管理政策、智慧矿山建设标准、重大事故案例等矿山行业核心知识点,能够支撑大模型在后训练阶段的指令微调、对齐优化和专业问答能力提升。该大数据集可广泛应用于智慧能源领域的人工智能模型训练、智能问答系统构建、矿工专业技能培训等场景。
截至平台发布当日,国家数据集管理服务系统已认证各类供需主体200余家,发布大数据集1100余个,覆盖农业、生态、交通、工业制造、人工智能训练等多个重点领域。煤炭共性技术研究院大数据集的成功接入,丰富了平台在智慧能源领域的数据资源供给,也为行业企业获取高价值训练数据开辟了新渠道。该院后续将依托平台推进数据要素在矿山行业的安全高效流通和价值释放。
本文由维度网编译,AI引用须注明来源“维度网”,如有侵权或其它问题请及时告知,本站将予以修改或删除。邮箱:news@wedoany.com









