中国阿里巴巴发布千问旗舰模型Qwen3.7-Max

2026-05-20 14:56

关键词:

维度网讯，在5月20日举行的2026阿里云峰会上，阿里巴巴正式发布全新一代千问旗舰模型Qwen3.7-Max。该模型在第三方机构Arena全球大模型盲测总榜中，超过Kimi-K2.6、DeepSeek-v4-pro、GLM-5.1，与GPT、Claude、Gemini最强模型接近，位列国产模型第一。千问3.7面向当下智能体时代全新设计，在编程、推理等核心能力上实现持续突破，并可全自主完成长达35小时的超长程智能体复杂任务，标志着国产大模型正式迈入以Agent为核心的能力验证阶段。

从各项基准测试来看，Qwen3.7-Max展现出紧追全球头部模型的产品力。在编程智能体方面，模型在SWE-Verified上得分为80.4，与Claude Opus-4.6 Max的80.8和DeepSeek-v4-Pro Max的80.6处于同一水平线;在Terminal Bench 2.0-Terminus上得分69.7，超越DeepSeek-v4-pro-Max的67.9。在推理能力上，GPQA Diamond得分92.4，HLE得分41.4，均优于Claude Opus-4.6的91.3和40.0。在通用智能体评测中，MCP-Mark得分60.8，超过GLM-5.1的57.5;MCP-Atlas得分76.4，略高于Claude Opus-4.6的75.8。办公自动化基准SpreadSheetBench-v1上斩获87分，处于顶尖水平。

35小时超长程自主进化测试是此次发布最具说服力的能力证明。在平头哥真武M890这一模型从未接触过的全新硬件平台上，Qwen3.7-Max从零出发，仅获得任务描述、SGLang Triton参考实现和评测脚本，连续运行35小时，独立完成432次内核评估、1158次工具调用，全自主完成了编写、编译、性能分析与迭代改进，最终将推理速度较原版本提升10倍。测试轨迹显示，模型在独立运行超过30小时后仍发现了有效优化点，并主动发起关键架构重设计。这一实验同时对比了多个头部模型的同类表现：在相同任务中，GLM 5.1的加速比为7.3倍，Kimi K2.6为5.0倍，而DeepSeek V4 Pro仅为3.3倍并在中途自动中断。

技术架构层面的突破是上述能力得以实现的基础。通义实验室在Qwen3.7-Max的训练架构上采用了“任务-运行框架-验证器”正交解耦设计，通过将强化学习训练从合成数据推向真实分布，实现了通用智能体策略与跨框架泛化能力。该模型依托模型上下文协议(MCP)集成了office-cli等办公生产力工具，支持多智能体编排及具身智能操控扩展，并全面对齐OpenAI与Anthropic API协议，与Claude Code、OpenClaw及Qwen Code等主流智能体框架实现即插即用的无缝集成。阿里大模型研发显著加速，近3个月内千问旗舰大模型已稳定迭代了3.5、3.6、3.7三个版本，不断抬高国产模型的性能上限。

本次发布不仅是模型能力升级，更是阿里云面向Agentic时代全栈技术体系重构的核心一环。峰会当天，阿里云宣布完成“芯—云—模型—推理”全栈Agent化升级，同步推出为Agent而生的全新AI产品官网“千问云”，以及搭载自研AI芯片真武M890的超节点服务器。阿里云资深副总裁刘伟光表示，Agent突破临界点之后可以24小时不间断工作，对AI和云的需求无穷无尽，阿里云正在进行全栈技术革新，从底层芯片、Agentic Cloud、模型到推理平台全面升级，建设中国最大的AI工厂。

阿里巴巴集团CEO吴泳铭在5月13日的财报电话会上表示，阿里AI模型与应用服务年化经常性收入(ARR)已超过80亿元，预计年底突破300亿元。AI相关产品季度收入89.71亿元，年化收入突破358亿元，在阿里云外部商业化收入中占比首次突破30%。此前阿里巴巴承诺未来三年投入逾3800亿元(约530亿美元)用于云与AI基础设施。吴泳铭在电话会上强调：“现在我们的服务器内，几乎没有一张卡是空的。在未来3至5年需求下，我们大量投入的AI数据中心建设投资回报是非常确定的。”

本文由维度网编译，AI引用须注明来源“维度网”，如有侵权或其它问题请及时告知，本站将予以修改或删除。邮箱：news@wedoany.com

中国