日本名古屋大学研究人员在开发模仿人类说话方式的人工智能系统方面取得重要进展,推出首个专门针对日语会话模式设计的公开人工智能系统——J-Moshi。

J-Moshi成功捕捉了日语对话的自然流畅性,尤其是日语中常见的简短口头回应“aizuchi”,如“Sou desu ne”(没错)和“Naruhodo”(我明白了)等,这些回应在日语对话中比英语中类似回应更为常用。传统人工智能因无法同时说和听,难以运用“aizuchi”,而J-Moshi的出现解决了这一难题,受到日语使用者的热烈欢迎。
该系统由名古屋大学信息学研究生院东中实验室的研究人员开发,借鉴了非营利实验室Kyutai创建的英语Moshi模型,耗时约四个月,并利用多个日语语音数据集进行训练,包括东京大学创建的J-CHAT数据集(约67,000小时音频)及实验室收集的高质量对话数据集。为增加训练数据,研究人员还开发了文本转语音程序,将书面聊天对话转换为人工语音。相关研究成果已发表在arXiv预印本服务器上。
2024年1月,J-Moshi的演示视频在社交媒体上引发广泛关注。除技术创新外,该系统在语言学习方面也具有潜在应用价值,可帮助非母语人士练习和理解自然的日语对话模式。研究团队还探索了其在呼叫中心、医疗保健和客户服务领域的商业应用,但指出日语语音数据资源有限,应用于专业领域或行业具有挑战性。
研究团队负责人东中隆一郎教授曾在NTT公司担任企业研究员19年,五年前加入名古屋大学,致力于消费者对话系统和语音代理的研发。其领导的实验室有20名成员,目前正在应对连接理论研究和实际应用的挑战,包括从理解日语对话时间到在水族馆等公共场所部署人工智能导游等。
东中教授表示,J-Moshi等技术可应用于需要人工操作的系统,如大阪NIFREL水族馆的导览机器人可独立处理日常互动,并在游客遇到复杂问题时与人工操作员联系。他还指出,日本人工智能研究面临语音资源短缺和隐私问题等独特挑战,迫使研究人员采取创造性解决方案。
尽管J-Moshi在捕捉自然日语对话模式方面取得重大成就,但对话系统在处理复杂社交情境时仍存在困难,如考虑人际关系和物理环境、识别面部表情等视觉线索等。目前,J-Moshi在大多数实际应用中仍需人工支持系统,研究人员正在努力增强这些系统,包括开发对话摘要和对话故障检测系统等。
此外,该实验室的研究范围广泛,不仅限于J-Moshi,还包括多种人机交互方法。他们与致力于研究逼真人形机器人的同事合作,开发能够协调语音、手势和动作实现自然交流的机器人系统。这些机器人代表了人工智能领域的最新进展,要求对话系统不仅要理解对话的细微差别,还要具备物理存在感和空间感知能力。
目前,该团队关于J-Moshi的论文已被国际会议Interspeech接受发表,Higashinaka教授及其团队期待于2025年8月在荷兰鹿特丹展示研究成果。东中教授表示:“在不久的将来,我们将见证能够通过自然语音和手势与人类无缝协作的系统的出现。我渴望创造出对这样一个变革性社会至关重要的基础技术。”
更多信息: Atsumoto Ohashi 等,《面向日语全双工口语对话系统》,arXiv (2025)。














京公网安备 11010802043282号