阿里千问上线全模态大模型Qwen3.5-Omni，支持超10小时音频输入与113种语种识别

2026-03-31 09:06

关键词:

维度网讯，3月30日，阿里千问宣布正式上线全模态大模型Qwen3.5-Omni，标志着其在多模态人工智能领域迈出重要一步。该模型以强大的跨模态处理能力为核心亮点，能够同时处理文本、音频、视频等多种信息形态，为用户提供更加智能、自然的交互体验。

Qwen3.5-Omni系列共包含Plus、Flash、Light三种尺寸的Instruct版本，以满足不同应用场景下的性能与效率需求。在上下文处理能力方面，该模型支持高达256k的长上下文，能够高效处理大规模信息输入。尤为值得关注的是，Qwen3.5-Omni在音视频处理上表现突出，模型支持超过10小时的音频输入以及超过400秒的720P(1 FPS)音视频输入，这一能力使其在语音识别、视频理解等复杂任务中具备显著优势。

在语种支持方面，Qwen3.5-Omni展现了广泛的语言覆盖能力，能够支持113种语种和方言的语音识别，以及36种语种和方言的语音生成。这一特性使得该模型在全球化应用场景中具备强大的适配能力，可广泛应用于跨国企业服务、多语言内容创作、智能客服等领域。目前，开发者可通过Offline API和Realtime API两种方式对Qwen3.5-Omni进行体验与集成，灵活满足离线批处理与实时交互的不同需求。

业内专家指出，阿里千问此次推出的Qwen3.5-Omni全模态大模型，不仅在技术参数上实现了多项突破，更体现了大模型从单一文本处理向多模态融合演进的发展趋势。随着全模态能力的持续提升，类似Qwen3.5-Omni的模型有望在智能硬件、教育、医疗、娱乐等多个行业催生新的应用形态，进一步推动人工智能技术的普及与落地。

本文由维度网编译，AI引用均须注明来源“维度网”，如有侵权或其它问题请及时告之,本站将予以修改或删除。邮箱:news@wedoany.com

中国