谷歌非洲研究院推出WAXAL语音数据集,覆盖21种非洲语言
2026-02-03 16:06
收藏
随着智能设备普及,语音交互已成为日常习惯,但全球仍有数亿人因技术无法识别当地语言而难以享受便利。在撒哈拉以南非洲,超过2000种语言的使用使得开发包容性语音技术面临核心难题——高质量语音数据的匮乏。

为应对这一挑战,谷歌非洲研究院联合多国机构发布了WAXAL语音数据集,名称来源于沃洛夫语的“说话”。经过三年筹备,该资源旨在支持研究人员构建覆盖非洲的语音技术。WAXAL语音数据集收录21种语言,包括阿乔利语、豪萨语等,包含近200万条录音,总时长超11000小时。其中约1250小时已转录,可用于自动语音识别;另有20余小时的专业录音适用于文本转语音系统。
这一WAXAL语音数据集的构建由非洲本土机构主导。乌干达马凯雷雷大学与加纳大学负责13种语言采集,卢旺达Digital Umuganda完成5种语言收集。专业录音部分由Media Trust、Loud n Clear合作制作,非洲数学科学研究所则提供了多语言数据以拓展未来应用。合作框架确保数据提供方保留所有权,同时向全球研究社区开放使用。
WAXAL语音数据集通过伦理化方式采集真实语音,既包含日常场景描述,也涵盖专业录音室素材。除推动人工智能研发外,该资源有望促进非洲语言的数字化保存。完整数据集已按开放许可在Hugging Face平台发布,相关技术细节同步发表于研究论文。
相关推荐

德国赢创与Imubit在新加坡启动工业AI试点
2026-05-05

多个美国存储厂商延长供货协议周期:闪迪、希捷、西数锁定 3 至 5 年订单
2026-05-05

美国红帽推出Tank OS开源项目将OpenClaw封装
2026-05-05

SC CapRock为巴西Taboca亚马逊矿区部署多轨道混合卫星连接
2026-05-05

美国Cognizant以6亿美元收购AI基础设施服务商Astreya
2026-05-05

美国IQ Fiber投资1亿美元,在佛罗里达州皮尼拉斯县推出10 Gbps对称光纤互联网
2026-05-05

美国Airspan与Wireless Services在夏洛特机场部署DAS,下载速率从50Mbps跃升至超300Mbps
2026-05-05

美国海洋能源公司Panthalassa获1.4亿美元B轮融资,2026年部署北太平洋AI波浪计算节点
2026-05-05

阿联酋阿布扎比启动AI无人巡逻艇海上监控测试
2026-05-05
美国莱迪思半导体以16.5亿美元收购固件与AI基础设施管理厂商AMI
2026-05-05
最新简讯
1
马来西亚浮罗交怡启动2.4亿令吉水利建设项目 提升日供水至4500万公升
2
马来西亚沙巴州推进三大新工业园区发展 推动制造业与投资增长
3
美国Lucid Motors联合优步Nuro推出自动驾驶出租车
4
巴西Retrak投资1300万雷亚尔更新巴西叉车租赁车队
5
美国ZF PowerLine变速箱将应用美国Capacity码头牵引车
6
马来西亚柔佛摄政王呼吁联邦政府加速推进新山轨道交通系统项目
7
荷兰Van der Vlist部署首辆氢燃料卡车
8
澳大利亚北领地道路升级获6000万澳元资金 重点修复雨季损毁路段
9
日本丰田申请氢动力电动汽车专利
10
智利总统宣布逾8000亿比索公路建设计划 投资规模为近数十年平均五倍
