康奈尔大学一项新研究指出,亚马逊人工智能购物助手Rufus对使用特定英语方言,如非裔美籍英语(AAE)的用户,在给出回答时存在模糊或不准确的情况,尤其在提示包含拼写错误时表现更甚。

研究构建了一个评估框架,旨在分析聊天机器人在面对不同方言用户时,若系统表现不佳可能引发的潜在危害。研究人员强调,此研究对众多依赖大型语言模型聊天机器人提供服务的在线平台具有重要启示意义。康奈尔科技大学博士生、研究主要作者艾玛·哈维表示:“当前,聊天机器人可能为方言用户提供低质量回复,但情况并非无法改变。若训练大型语言模型以应对标准美式英语外的常见方言特征,或能实现更公平的行为。”该研究在6月23日至26日举行的ACM公平、问责和透明度会议(FAccT 2025)上荣获最佳论文奖,论文共同作者包括康奈尔大学Ann S. Bowers信息科学学院副教授Rene F. Kizilcec等,论文发表于《2025年ACM公平、问责和透明度会议论文集》。
研究团队通过审计亚马逊购物应用中的Amazon Rufus,利用MultiVALUE工具将标准英语提示转换为五种方言,并修改提示以模拟现实使用场景。结果显示,使用方言提问时,Rufus回答质量下降,拼写错误更会加剧这一差距。例如,标准美式英语中询问夹克能否机洗,Rufus回答正确;但用AAE方言不带连词提问时,Rufus常无法正确回答,甚至引导用户至不相关产品。研究团队总体而言,倡导方言感知的人工智能审计,并敦促开发人员设计包容语言多样性的系统。
更多信息: Emma Harvey 等人,《基于方言的服务质量危害聊天机器人审计框架》,2025 年 ACM 公平、问责与透明度会议论文集(2025)。
















京公网安备 11010802043282号