随着智能设备普及,语音交互已成为日常习惯,但全球仍有数亿人因技术无法识别当地语言而难以享受便利。在撒哈拉以南非洲,超过2000种语言的使用使得开发包容性语音技术面临核心难题——高质量语音数据的匮乏。

为应对这一挑战,谷歌非洲研究院联合多国机构发布了WAXAL语音数据集,名称来源于沃洛夫语的“说话”。经过三年筹备,该资源旨在支持研究人员构建覆盖非洲的语音技术。WAXAL语音数据集收录21种语言,包括阿乔利语、豪萨语等,包含近200万条录音,总时长超11000小时。其中约1250小时已转录,可用于自动语音识别;另有20余小时的专业录音适用于文本转语音系统。
这一WAXAL语音数据集的构建由非洲本土机构主导。乌干达马凯雷雷大学与加纳大学负责13种语言采集,卢旺达Digital Umuganda完成5种语言收集。专业录音部分由Media Trust、Loud n Clear合作制作,非洲数学科学研究所则提供了多语言数据以拓展未来应用。合作框架确保数据提供方保留所有权,同时向全球研究社区开放使用。
WAXAL语音数据集通过伦理化方式采集真实语音,既包含日常场景描述,也涵盖专业录音室素材。除推动人工智能研发外,该资源有望促进非洲语言的数字化保存。完整数据集已按开放许可在Hugging Face平台发布,相关技术细节同步发表于研究论文。









