阿里巴巴达摩院推出Qwen3-TTS:AI语音合成新突破
2026-01-28 10:03
收藏

阿里巴巴达摩院团队在2026年1月发表于《计算机科学-声音处理》领域的研究,带来了AI语音合成领域的重大突破——Qwen3-TTS系统。这项创新技术让AI能够像真人一样自然流畅地说话,为语音交互领域树立了新标杆。论文编号为arXiv:2601.15621v1,为技术细节查询提供依据。

Qwen3-TTS系统的核心能力令人惊叹。它仅需3秒钟的参考语音,就能完美克隆说话人的声音特征,包括音调、音色甚至说话习惯。系统支持中文、英文、德语、意大利语等10种语言,不仅能复制现有声音,还能根据文字描述创造全新声音效果,如“温柔磁性的女性声音”。这种多语言、个性化的语音生成能力,为全球化应用提供了可能。

技术实现上,研究团队开发了两套“语音编码器”。Qwen-TTS-Tokenizer-25Hz每秒处理25次声音信息,确保生成语音的高质量与自然度;Qwen-TTS-Tokenizer-12Hz则以12.5赫兹的处理频率,实现97毫秒内的快速响应,接近人类反应极限。这两套编码器分别针对质量与速度优化,满足不同场景需求。

系统采用“双轨道”核心架构,一条轨道处理文本内容,另一条轨道生成对应声音,实现真正的实时对话。在训练过程中,研究团队通过三个阶段逐步完善系统:基础训练建立文字与语音的基本映射;质量提升阶段改善语音自然度;长文本处理阶段扩展系统处理能力至32000多个字符。

本简讯来自全球互联网及战略合作伙伴信息的编译与转载,仅为读者提供交流,有侵权或其它问题请及时告之,本站将予以修改或删除,未经正式授权严禁转载本文。邮箱:news@wedoany.com