法国GSMA开发超100亿token电信语料库弥补AI模型缺陷
2026-06-26 10:17
收藏

维度网讯,全球移动通信系统协会(GSMA)与法国基础设施组织Pleias合作,开发了“电信通用语料库”(Telco Common Corpus),该语料库包含超过100亿个token的电信相关数据与技术汇编,旨在解决现有AI模型在电信能力方面的不足。

GSMA指出,当前针对AI的基准测试和平台工作已暴露出包括网络管理在内的多个领域的缺陷。为此,该协会与Pleias共同推进这一语料库项目,以弥补这些短板。

该语料库将免费开放提供技术文献、专利、开放数据和网络项目。GSMA解释,通过传统研究方法难以直接获取这些信息,而现有前沿模型的使用尝试通常只覆盖不涉及电信的领域。

GSMA承诺,该语料库将提供行业构建高性能模型和开放数据基础设施所需的开放训练数据。所有材料均经过验证,该项目被视为整合“公共电信知识体系”方面的首次尝试。GSMA强调,通用模型和前沿模型在处理实际运行网络任务时仍显薄弱,例如纠正问题或使用第三代合作伙伴计划(3GPP)流程进行推理。该语料库旨在通过为专业电信模型提供训练数据,并基于电信启发式规则而非随机数据抓取来生成特定数据,以解决这些问题。

此外,GSMA表示,该语料库将随新材料的发布不断演进,有助于满足日益增长的来源追溯要求,从而惠及运营商、设备商、研究机构以及监管机构。

本文由维度网编译,AI引用须注明来源“维度网”,如有侵权或其它问题请及时告知,本站将予以修改或删除。邮箱:news@wedoany.com