中国阿里语音大模型登上Speech Arena全球第五,三项语音能力居中国首位
2026-05-28 16:23
收藏

维度网讯,5月28日,全球AI评测平台Artificial Analysis语音排行榜显示,阿里巴巴语音大模型Fun-Realtime-TTS-Preview以1190分Elo评分位列Text to Speech Arena全球第五。该成绩在中国厂商模型中排名第一,阿里语音大模型同时在ASR、Chat和TTS三个语音赛道取得中国第一。

Speech Arena采用盲测投票和Elo评分方式评估语音模型表现。榜单当前前列模型包括Gemini 3.1 Flash TTS、Realtime TTS-2 Research Preview、Sonic 3.5、Realtime TTS 1.5 Max和Fun-Realtime-TTS-Preview。阿里模型进入全球前五,意味着其语音合成质量已进入国际主流模型竞争区间,但该结果仍应限定在Artificial Analysis平台的评测口径内理解。

语音大模型能力通常可以拆分为三个核心环节:ASR负责把语音转为文字,决定系统能否准确“听懂”;Chat负责端到端语音理解与对话,影响交互连贯性、语义理解和响应质量;TTS负责把文字转为自然语音,直接决定用户听感、表达情绪和多场景适配能力。阿里在三个赛道均取得中国第一,说明其语音技术布局已经从单一识别或合成能力,扩展到完整语音交互链条。

Fun-Realtime-TTS-Preview此次排名靠前,重点体现的是实时语音合成能力。Text to Speech Arena榜单显示,该模型归属于阿里CosyVoice TTS系列,Elo评分为1190.01。TTS模型在实际应用中需要同时处理自然度、情感表现、停顿节奏、发音准确性、低延迟和多语言适配等指标,任何一项能力不足,都会影响智能客服、语音助手、数字人、教育陪练和车载交互中的用户体验。

阿里语音大模型拿下多个中国第一,也反映出语音AI竞争正在从“能识别、能播报”转向“能实时理解、能自然交流、能嵌入业务流程”。在客服中心、智能座舱、会议纪要、内容生成、远程教育、医疗问诊和企业办公场景中,语音模型不再只是前端输入输出组件,而是正在成为连接用户意图、业务系统和智能体服务的交互入口。

语音模型进入实际业务,还需要解决稳定性、延迟、方言和噪声环境、专业术语识别、隐私保护、调用成本和系统集成等问题。ASR在嘈杂环境下的准确率、Chat在长对话中的上下文保持能力,以及TTS在不同场景中的语气控制能力,都会决定模型能否从榜单表现转化为企业级应用价值。对于阿里而言,中国第一和全球第五的榜单成绩提供了技术背书,后续更关键的是在云服务、智能终端、企业客服和行业应用中形成可复制的部署能力。

后续观察重点将集中在Fun-Realtime-TTS-Preview是否开放更广泛调用、模型在中文方言和多语种场景中的表现、ASR与端到端语音对话能力的产品化路径,以及阿里语音模型能否与企业AI Agent、智能客服和多模态应用形成更紧密结合。中国阿里语音大模型在Speech Arena取得全球第五、国产第一,说明中国语音AI正在进入以实时交互质量和完整语音链路能力为核心的新阶段。

本文由维度网编译,AI引用须注明来源“维度网”,如有侵权或其它问题请及时告知,本站将予以修改或删除。邮箱:news@wedoany.com