阿里巴巴达摩院推出Qwen3-TTS：AI语音合成新突破

2026-01-28 10:03

关键词:

阿里巴巴达摩院团队在2026年1月发表于《计算机科学-声音处理》领域的研究，带来了AI语音合成领域的重大突破——Qwen3-TTS系统。这项创新技术让AI能够像真人一样自然流畅地说话，为语音交互领域树立了新标杆。论文编号为arXiv:2601.15621v1，为技术细节查询提供依据。

Qwen3-TTS系统的核心能力令人惊叹。它仅需3秒钟的参考语音，就能完美克隆说话人的声音特征，包括音调、音色甚至说话习惯。系统支持中文、英文、德语、意大利语等10种语言，不仅能复制现有声音，还能根据文字描述创造全新声音效果，如“温柔磁性的女性声音”。这种多语言、个性化的语音生成能力，为全球化应用提供了可能。

技术实现上，研究团队开发了两套“语音编码器”。Qwen-TTS-Tokenizer-25Hz每秒处理25次声音信息，确保生成语音的高质量与自然度;Qwen-TTS-Tokenizer-12Hz则以12.5赫兹的处理频率，实现97毫秒内的快速响应，接近人类反应极限。这两套编码器分别针对质量与速度优化，满足不同场景需求。

系统采用“双轨道”核心架构，一条轨道处理文本内容，另一条轨道生成对应声音，实现真正的实时对话。在训练过程中，研究团队通过三个阶段逐步完善系统：基础训练建立文字与语音的基本映射;质量提升阶段改善语音自然度;长文本处理阶段扩展系统处理能力至32000多个字符。

中国