美国GitHub发布多语种仓库数据集,覆盖超4000万仓库
2026-06-16 09:36
收藏

维度网讯,GitHub发布了GitHub多语种仓库数据集(GitHub Multilingual Repositories Dataset),该仓库级元数据集旨在帮助研究人员和开发者发现有非英语自然语言内容的公开GitHub仓库。在构建该数据集时,不同语言在README、issue和拉取请求中的分布各异:韩语是issue文本中最常见的非英语语言,但在README中仅排第五;葡萄牙语在非英语README中位居榜首,涉及超过300万个仓库。随着AI在开发者构建软件的过程中扮演越来越重要的角色,多语种开发者内容比以往任何时候都更加关键。该数据集现已在GitHub上以CC0-1.0许可发布,兑现了GitHub于2025年作为微软欧洲数字承诺(Microsoft's European Digital Commitments)一部分所做出的承诺,即让多语种数据更易获取,包括面向开源AI开发者。

该数据集并非仓库内容的转储,而是一个元数据集,涵盖超过8000万条分类记录,涉及超过4000万个仓库。对于每个公开仓库,提供以下内容:对README、评论最多的issue和评论最多的拉取请求的语言分类,每项取前150个字符作为输入样本,排除了少于20个字符的文本;每个文本来源的分类结果来自fastText、gcld3和lingua-py,每条附带置信度分数,数据集仅包含置信度大于0.5的分类;仓库元数据包括创建时间戳、磁盘使用量、星标数、分支数、主要编程语言、SPDX许可证、issue和拉取请求计数以及快照日期。GitHub有意不将三个分类器合并为一个标签,因为不同分类器在覆盖范围和置信度校准上存在差异,尤其是对于资源较少的语言。通过公开所有三个分类结果,使用者可自行决定严格程度。

该数据集可用于发现可能包含特定语言开发者文档或协作的仓库,研究非英语开发者社区如何使用issue、拉取请求和README,构建AI编码工具、文档生成器或审查助手的评估集(这些工具需在多种语言中表现良好),鼓励决策者利用开发者多语种多样性的数据支撑论点以扩大语言覆盖范围,以及衡量欧洲及其他代表性不足的语言在开源中的表现。语言识别在软件仓库中较为困难,仓库文本通常很短,可能包含徽章、模板、安装命令、代码片段、用户名或混合语言内容,150个字符的样本可能无法代表整个仓库。因此,该数据集不应被视为语言识别的地面实况基准,而是被设计为一个透明的发现工具。该数据集也不应用于推断仓库所有者、贡献者或社区的敏感属性,这些信号是仓库级元数据,而非个人级属性。

许多欧洲语言在用于构建和评估AI系统的在线文本中仍然代表性不足,这可能使AI工具对某些开发者、语言和社区表现良好,而将其他群体抛在后面。开放数据有助于缩小这一差距。该数据集构建的原因在于开发者内容不同于一般的网络文本,README、issue和拉取请求包含软件协作的语言,如安装说明、错误报告、功能请求、审查评论和社区规范。这些上下文有助于构建更能理解开发者实际工作方式的AI系统。通过使多语种开发者内容信号更易于发现和分析,该数据集为研究者、开源开发者和模型构建者提供了研究软件开发中语言代表性的工具,有助于识别差距、支持更好的评估,并为欧洲及其他地区的开发者打造更具包容性的AI工具。

GitHub将在6月16日于斯特拉斯堡的开放创新对话中心(Open Innovation Dialogue Hub)讨论该数据集以及开放数据对多语种AI的更广泛重要性。该活动由微软开放创新中心(Microsoft Open Innovation Center)、欧洲委员会(Council of Europe)和GitHub共同组织,将汇聚政策制定者、研究人员、文化机构和开放创新领袖,探讨AI、语言多样性、文化遗产和开放数据。

本文由维度网编译,AI引用须注明来源“维度网”,如有侵权或其它问题请及时告知,本站将予以修改或删除。邮箱:news@wedoany.com