中国阿里发布Qwen3.7-Plus，多模态智能体从视觉理解走向端到端执行

2026-06-02 09:18

关键词:

维度网讯，6月2日，阿里正式发布Qwen3.7-Plus多模态智能体模型。该模型在Qwen3.7文本能力基础上升级视觉—语言能力，并继续保留编码、工具使用和生产力工作流等智能体能力。

Qwen3.7-Plus的核心变化，是把“看懂内容”进一步推进到“理解界面并执行任务”。阿里云千问大模型页面显示，Qwen3.7-Plus多模态智能体模型既能看懂界面、操作应用，也能写代码、交付结果，目标是实现“看、想、写、做、验”的端到端闭环。对于企业级AI应用来说，多模态能力过去更多集中在图片理解、文档识别、图表分析和视频内容摘要等环节，模型主要承担信息读取和内容解释角色。进入智能体阶段后，企业需要模型在看懂屏幕、理解网页、识别软件界面、读取业务材料之后继续完成操作，包括调用工具、生成代码、填报表单、整理文档、执行办公流程和校验结果。Qwen3.7-Plus强调视觉—语言能力与智能体能力结合，意味着多模态模型开始从“感知层”向“任务执行层”延伸。

这次更新也延续了阿里千问3.7系列面向智能体时代的产品方向。阿里云页面介绍，Qwen3.7系列在编程、办公自动化与长周期任务自主执行能力上全面进阶，定位于复杂场景下的智能体应用。

从技术落地看，Qwen3.7-Plus更适合承接企业生产力场景中的复合型任务。许多企业流程并不是纯文本任务，而是由网页、表格、图片、PDF、后台系统、会议纪要、代码仓库和业务数据库共同组成。模型如果只能处理文本，就需要大量人工把界面信息转写成指令;如果只能识别图片，也无法直接完成后续操作。多模态智能体模型的价值在于把视觉识别、语言推理、代码生成、工具调用和结果验证连接在一个流程中，让AI可以在更接近真实办公环境的任务链条中运行。比如在软件研发场景中，模型需要读懂报错截图、定位代码文件、修改逻辑、运行测试并给出修复说明;在运营和办公场景中，模型需要识别后台页面、提取数据、生成报告、更新文档并检查格式一致性。这类能力能否稳定交付，将直接影响智能体从演示产品进入企业工作流的速度。

Qwen3.7-Plus还反映出国内大模型竞争正在从单一参数规模和通用问答能力，转向多模态智能体、工具链适配和企业工作流集成。阿里在千问模型体系中同时覆盖文本生成、视觉理解、语音、图像生成、代码智能体和全模态模型，背后是云服务、开发者平台、应用入口和企业API共同构成的产品矩阵。对企业客户而言，模型能力本身只是第一层，真正影响采用决策的还包括调用成本、上下文长度、推理速度、权限管理、数据安全、私有化或云端部署方式，以及能否与现有业务系统形成稳定接口。Qwen3.7-Plus如果能够在视觉界面理解和工具操作上保持稳定表现，将有助于阿里把千问能力进一步嵌入研发、办公、客服、数据处理、设计协作和业务自动化场景。

后续变量集中在实际任务成功率、复杂界面适配能力、长流程执行稳定性、企业系统接入成本和开发者生态扩展。多模态智能体模型的竞争不再只是模型能否回答问题，而是能否在真实业务流程中持续完成任务、发现错误并交付可用结果。Qwen3.7-Plus的发布，说明阿里正在把千问模型迭代重点继续压向生产级智能体应用。

本文由维度网编译，AI引用须注明来源‘维度网’，如有侵权或其它问题请及时告知，本站将予以修改或删除。邮箱：news@wedoany.com

中国