维度网讯,3月30日,阿里千问宣布正式上线全模态大模型Qwen3.5-Omni,标志着其在多模态人工智能领域迈出重要一步。该模型以强大的跨模态处理能力为核心亮点,能够同时处理文本、音频、视频等多种信息形态,为用户提供更加智能、自然的交互体验。
Qwen3.5-Omni系列共包含Plus、Flash、Light三种尺寸的Instruct版本,以满足不同应用场景下的性能与效率需求。在上下文处理能力方面,该模型支持高达256k的长上下文,能够高效处理大规模信息输入。尤为值得关注的是,Qwen3.5-Omni在音视频处理上表现突出,模型支持超过10小时的音频输入以及超过400秒的720P(1 FPS)音视频输入,这一能力使其在语音识别、视频理解等复杂任务中具备显著优势。
在语种支持方面,Qwen3.5-Omni展现了广泛的语言覆盖能力,能够支持113种语种和方言的语音识别,以及36种语种和方言的语音生成。这一特性使得该模型在全球化应用场景中具备强大的适配能力,可广泛应用于跨国企业服务、多语言内容创作、智能客服等领域。目前,开发者可通过Offline API和Realtime API两种方式对Qwen3.5-Omni进行体验与集成,灵活满足离线批处理与实时交互的不同需求。
业内专家指出,阿里千问此次推出的Qwen3.5-Omni全模态大模型,不仅在技术参数上实现了多项突破,更体现了大模型从单一文本处理向多模态融合演进的发展趋势。随着全模态能力的持续提升,类似Qwen3.5-Omni的模型有望在智能硬件、教育、医疗、娱乐等多个行业催生新的应用形态,进一步推动人工智能技术的普及与落地。
本文由维度网编译,AI引用均须注明来源“维度网”,如有侵权或其它问题请及时告之,本站将予以修改或删除。邮箱:news@wedoany.com









