人工智能文化偏见新发现:食物视角下的全球数据集构建
2025-12-06 17:22
来源:CISPA亥姆霍兹信息安全中心
收藏

CISPA研究员Tẹjúmádé Àfọ̀njá参与的国际研究以食物为切入点,揭示了人工智能系统中的文化盲点。该研究引入参与式方法,旨在创建更具包容性的数据集并评估人工智能模型中的偏见。论文《全球方案:以社区为中心的细粒度数据收集和区域偏见操作化框架》在2025年6月雅典举行的ACM公平性、问责制和透明度会议(FAccT '25)上发表,并荣获最佳论文荣誉提名奖。

“食物是了解文化的重要途径,”Tẹjúmádé Àfọ̀njá表示,“我们想探索生成式人工智能如何在图像中呈现人们的饮食文化。”研究背后,是对人工智能模型中文化偏见的探索。团队发现,许多模型存在偏差,而食物作为通用语言,成为研究这一问题的良好视角。

为具体研究,团队开发了新参考数据集,并测试现有模型。他们构建的“世界美食”(WWD)数据集,收录了来自106个国家的765道菜肴,以131种当地语言描述,每条记录均由社区参与者直接贡献。与现有数据集比较,WWD数据集中超过一半菜肴未出现过,赋予其独特特征。数据集及代码均以开源许可证发布。

在对比分析中,Tẹjúmádé Àfọ̀njá和同事们发现,许多模型输出结果过于刻板。例如,生成尼日利亚菜肴阿马拉(Amala)图片时,结果不尽如人意;而生成美国热狗图片时,则更接近实物。所有测试模型均存在此问题,原因在于模型基于网络数据训练,忽略未展示地区。

Tẹjúmádé Àfọ̀njá及其同事认为,构建模型的公司需加大对长尾训练和数据收集的投入。她表示:“要构建真正代表全球文化的模型,就必须优先考虑所有地区。”同时,数据收集必须与社区合作进行,关注数据所有权问题。

Tẹjúmádé Àfọ̀njá希望扩大“世界美食”项目规模,但面临资金挑战。她解释说,项目目前完全由志愿者驱动,若资金充足,可付费请社区贡献者收集更多本地数据。此外,团队还撰写了后续论文,发表在ACM人机交互会议论文集上,记录数据集收集过程及挑战。

更多信息:作者: Jabez Magomere 等人,标题:《全球方案:以社区为中心的细粒度数据收集和区域偏见操作化框架》,发表于:2025 年 ACM 公平、问责和透明度会议论文集(2025)。作者:Siobhan Mackenzie Hall 等人,标题:《数据工作的人力劳动:通过世界各地的菜肴捕捉文化多样性》,发表于:ACM 人机交互会议论文集(2025)。数据可在GitHub上获取。

本简讯来自全球互联网及战略合作伙伴信息的编译与转载,仅为读者提供交流,有侵权或其它问题请及时告之,本站将予以修改或删除,未经正式授权严禁转载本文。邮箱:news@wedoany.com