中国阿里语音大模型登上Speech Arena全球第五，三项语音能力居中国首位

2026-05-28 16:23

关键词:

维度网讯，5月28日，全球AI评测平台Artificial Analysis语音排行榜显示，阿里巴巴语音大模型Fun-Realtime-TTS-Preview以1190分Elo评分位列Text to Speech Arena全球第五。该成绩在中国厂商模型中排名第一，阿里语音大模型同时在ASR、Chat和TTS三个语音赛道取得中国第一。

Speech Arena采用盲测投票和Elo评分方式评估语音模型表现。榜单当前前列模型包括Gemini 3.1 Flash TTS、Realtime TTS-2 Research Preview、Sonic 3.5、Realtime TTS 1.5 Max和Fun-Realtime-TTS-Preview。阿里模型进入全球前五，意味着其语音合成质量已进入国际主流模型竞争区间，但该结果仍应限定在Artificial Analysis平台的评测口径内理解。

语音大模型能力通常可以拆分为三个核心环节：ASR负责把语音转为文字，决定系统能否准确“听懂”;Chat负责端到端语音理解与对话，影响交互连贯性、语义理解和响应质量;TTS负责把文字转为自然语音，直接决定用户听感、表达情绪和多场景适配能力。阿里在三个赛道均取得中国第一，说明其语音技术布局已经从单一识别或合成能力，扩展到完整语音交互链条。

Fun-Realtime-TTS-Preview此次排名靠前，重点体现的是实时语音合成能力。Text to Speech Arena榜单显示，该模型归属于阿里CosyVoice TTS系列，Elo评分为1190.01。TTS模型在实际应用中需要同时处理自然度、情感表现、停顿节奏、发音准确性、低延迟和多语言适配等指标，任何一项能力不足，都会影响智能客服、语音助手、数字人、教育陪练和车载交互中的用户体验。

阿里语音大模型拿下多个中国第一，也反映出语音AI竞争正在从“能识别、能播报”转向“能实时理解、能自然交流、能嵌入业务流程”。在客服中心、智能座舱、会议纪要、内容生成、远程教育、医疗问诊和企业办公场景中，语音模型不再只是前端输入输出组件，而是正在成为连接用户意图、业务系统和智能体服务的交互入口。

语音模型进入实际业务，还需要解决稳定性、延迟、方言和噪声环境、专业术语识别、隐私保护、调用成本和系统集成等问题。ASR在嘈杂环境下的准确率、Chat在长对话中的上下文保持能力，以及TTS在不同场景中的语气控制能力，都会决定模型能否从榜单表现转化为企业级应用价值。对于阿里而言，中国第一和全球第五的榜单成绩提供了技术背书，后续更关键的是在云服务、智能终端、企业客服和行业应用中形成可复制的部署能力。

后续观察重点将集中在Fun-Realtime-TTS-Preview是否开放更广泛调用、模型在中文方言和多语种场景中的表现、ASR与端到端语音对话能力的产品化路径，以及阿里语音模型能否与企业AI Agent、智能客服和多模态应用形成更紧密结合。中国阿里语音大模型在Speech Arena取得全球第五、国产第一，说明中国语音AI正在进入以实时交互质量和完整语音链路能力为核心的新阶段。

本文由维度网编译，AI引用须注明来源“维度网”，如有侵权或其它问题请及时告知，本站将予以修改或删除。邮箱：news@wedoany.com

中国

信息通信语言处理人工智能

本文来自全球互联网及战略合作伙伴信息的编译与转载,仅为读者提供交流,有侵权或其它问题请及时告知,本站将予以修改或删除,未经正式授权严禁转载本文。邮箱:news@wedoany.com

上一篇：中国普洛斯冷链基地5月27日在大连投运，服务会员制商超冷链枢纽

下一篇：Ontime完成对西班牙冷藏运输公司Campillo Palmera的收购