阿里巴巴 Qwen 团队是中国电子商务领军企业的一个部门,致力于扩展其开源 Qwen 大型语言模型系列,现已推出 QwQ-32B,这是一个拥有 320 亿个参数的推理模型,旨在通过强化学习 (RL) 出色地解决复杂问题。该开放权重模型在 Hugging Face 和 ModelScope 上根据 Apache 2.0 许可发布,可免费用于商业和研究用途,使企业能够立即将其集成到产品和应用程序中。QwQ-32B 以阿里巴巴对 OpenAI o1 的回应,于 2024 年 11 月首次亮相,旨在与中国实验室 DeepSeek 的 6710 亿个参数模型 DeepSeek-R1 相媲美,同时对计算能力的要求要低得多。

该模型利用多阶段强化学习来提高数学推理、编码和一般问题解决的性能,尽管规模较小,但取得了与 DeepSeek-R1 相当的结果。基准测试表明,QwQ-32B 可以有效地与 DeepSeek-R1 竞争,并在 AIME(数学)和 LiveCodeBench(编码)等任务中超越 OpenAI 的 o1-mini,尽管它在一些编程基准测试中落后,而 o1 仍保持优势。QwQ-32B 仅需要 24 GB 的 GPU vRAM(而 DeepSeek-R1 则需要 16 个 Nvidia A100 GPU 上的 1500+ GB),凸显了 RL 的效率,可在 Nvidia 的 H100(80 GB)等消费级硬件上流畅运行。它的架构具有 64 个转换层、RoPE、SwiGLU、RMNSNorm、具有 40 个查询头的 GQA 和 131,072 个标记的上下文长度,通过预训练、监督微调和针对数学、编码和通用功能的两阶段 RL 过程进行了优化。
对于企业来说,QwQ-32B 提供了一种经济高效、适应性强的解决方案,可用于数据分析、软件开发和自动化,不受专有约束。虽然它的中国血统可能会引起一些人对安全或偏见的担忧,但它的离线可用性缓解了这些问题,使其成为可行的 DeepSeek-R1 替代方案。自 DeepSeek-R1 于 2024 年 1 月推出以来,它就成为 AI 模型流量的榜首(根据 SimilarWeb),QwQ-32B 于 2025 年 3 月发布,加剧了中国的 AI 竞赛,赢得了 Vaibhav Srivastav 和 Yuchen Jin 等专家对 X 的速度和效率的称赞。









