维度网讯,在5月20日举行的2026阿里云峰会上,阿里巴巴正式发布全新一代千问旗舰模型Qwen3.7-Max。该模型在第三方机构Arena全球大模型盲测总榜中,超过Kimi-K2.6、DeepSeek-v4-pro、GLM-5.1,与GPT、Claude、Gemini最强模型接近,位列国产模型第一。千问3.7面向当下智能体时代全新设计,在编程、推理等核心能力上实现持续突破,并可全自主完成长达35小时的超长程智能体复杂任务,标志着国产大模型正式迈入以Agent为核心的能力验证阶段。
从各项基准测试来看,Qwen3.7-Max展现出紧追全球头部模型的产品力。在编程智能体方面,模型在SWE-Verified上得分为80.4,与Claude Opus-4.6 Max的80.8和DeepSeek-v4-Pro Max的80.6处于同一水平线;在Terminal Bench 2.0-Terminus上得分69.7,超越DeepSeek-v4-pro-Max的67.9。在推理能力上,GPQA Diamond得分92.4,HLE得分41.4,均优于Claude Opus-4.6的91.3和40.0。在通用智能体评测中,MCP-Mark得分60.8,超过GLM-5.1的57.5;MCP-Atlas得分76.4,略高于Claude Opus-4.6的75.8。办公自动化基准SpreadSheetBench-v1上斩获87分,处于顶尖水平。
35小时超长程自主进化测试是此次发布最具说服力的能力证明。在平头哥真武M890这一模型从未接触过的全新硬件平台上,Qwen3.7-Max从零出发,仅获得任务描述、SGLang Triton参考实现和评测脚本,连续运行35小时,独立完成432次内核评估、1158次工具调用,全自主完成了编写、编译、性能分析与迭代改进,最终将推理速度较原版本提升10倍。测试轨迹显示,模型在独立运行超过30小时后仍发现了有效优化点,并主动发起关键架构重设计。这一实验同时对比了多个头部模型的同类表现:在相同任务中,GLM 5.1的加速比为7.3倍,Kimi K2.6为5.0倍,而DeepSeek V4 Pro仅为3.3倍并在中途自动中断。
技术架构层面的突破是上述能力得以实现的基础。通义实验室在Qwen3.7-Max的训练架构上采用了“任务-运行框架-验证器”正交解耦设计,通过将强化学习训练从合成数据推向真实分布,实现了通用智能体策略与跨框架泛化能力。该模型依托模型上下文协议(MCP)集成了office-cli等办公生产力工具,支持多智能体编排及具身智能操控扩展,并全面对齐OpenAI与Anthropic API协议,与Claude Code、OpenClaw及Qwen Code等主流智能体框架实现即插即用的无缝集成。阿里大模型研发显著加速,近3个月内千问旗舰大模型已稳定迭代了3.5、3.6、3.7三个版本,不断抬高国产模型的性能上限。
本次发布不仅是模型能力升级,更是阿里云面向Agentic时代全栈技术体系重构的核心一环。峰会当天,阿里云宣布完成“芯—云—模型—推理”全栈Agent化升级,同步推出为Agent而生的全新AI产品官网“千问云”,以及搭载自研AI芯片真武M890的超节点服务器。阿里云资深副总裁刘伟光表示,Agent突破临界点之后可以24小时不间断工作,对AI和云的需求无穷无尽,阿里云正在进行全栈技术革新,从底层芯片、Agentic Cloud、模型到推理平台全面升级,建设中国最大的AI工厂。
阿里巴巴集团CEO吴泳铭在5月13日的财报电话会上表示,阿里AI模型与应用服务年化经常性收入(ARR)已超过80亿元,预计年底突破300亿元。AI相关产品季度收入89.71亿元,年化收入突破358亿元,在阿里云外部商业化收入中占比首次突破30%。此前阿里巴巴承诺未来三年投入逾3800亿元(约530亿美元)用于云与AI基础设施。吴泳铭在电话会上强调:“现在我们的服务器内,几乎没有一张卡是空的。在未来3至5年需求下,我们大量投入的AI数据中心建设投资回报是非常确定的。”
本文由维度网编译,AI引用须注明来源“维度网”,如有侵权或其它问题请及时告知,本站将予以修改或删除。邮箱:news@wedoany.com










