人工智能耳机提供语音克隆和 3D 空间音频的群组翻译
2025-05-12 10:30
来源:华盛顿大学
收藏

华盛顿大学博士生陈托超在墨西哥博物馆参观时,因环境噪音导致翻译应用效果不佳,这一经历激发了他与研究团队开发新型翻译技术的灵感。近日,陈托超及其团队设计了一套耳机系统,可同时翻译多个说话者的语音,并保留人声方向和音质,为跨语言交流提供了新的解决方案。

该系统名为“空间语音翻译”,利用配备麦克风的现成降噪耳机,结合团队研发的算法,能够分离空间内不同说话者并跟踪其移动。该系统能以2-4秒的延迟翻译语音,并在移动设备上保持说话者声音的表现力和音量。团队于4月30日在日本横滨举行的ACM CHI计算机系统人为因素会议上展示了研究成果,并公开了概念验证设备的代码。

“其他翻译技术往往基于单人说话的假设,”华盛顿大学保罗·G·艾伦计算机科学与工程学院教授Shyam Gollakota表示,“但在现实世界中,与多个人对话时,仅用一个机器人的声音显然不够。我们的系统首次保留了每个人的声音及其来源。”

该系统具有三项创新。首先,它能检测室内或室外空间中的说话者数量,算法像雷达一样360度扫描整个空间。其次,系统在翻译语音时,能保持每个说话者声音的表现力和音量,且避免使用云计算以保护隐私。最后,当说话者移动头部时,系统会持续追踪其声音方向和音质的变化。

在10种室内外环境下的测试中,该系统均能正常工作。在一项29人参与的测试中,用户更倾向于选择该系统而非其他无法追踪说话者位置的型号。此外,大多数用户更喜欢3-4秒的延迟,因为更短的延迟会导致更多错误。团队正在努力降低未来的翻译延迟。

“这是朝着打破文化间语言障碍迈出的一步,”陈托超表示,“即使我不会说西班牙语,走在墨西哥的街道上,我也能翻译所有人的声音,了解对话内容。”

该系统的研究团队还包括华盛顿大学艾伦学院本科生Qirui Wang和博士生Runlin He,他们共同为这一创新技术的诞生做出了贡献。

更多信息: Tuochao Chen 等,《空间语音翻译:利用双耳可听设备进行跨空间翻译》,2025 年 CHI 计算机系统人为因素会议论文集(2025)。

本简讯来自全球互联网及战略合作伙伴信息的编译与转载,仅为读者提供交流,有侵权或其它问题请及时告之,本站将予以修改或删除,未经正式授权严禁转载本文。邮箱:news@wedoany.com