中国金山云下半年拟加速GPU算力集群建设承接小米与阿里大模型需求

2026-07-02 18:00

关键词:

维度网讯，7月2日消息，中国金山云下半年将加速GPU算力集群建设，以满足头部客户快速增长的AI算力需求。相关需求主要来自中国小米集团和中国阿里巴巴大模型团队，其中小米对金山云的GPU算力需求已由万卡集群升级为超大规模算力集群，相关投入预算由最初近40亿元增至百亿元以上。

这次扩建的核心是大规模GPU集群交付能力。AI大模型训练和推理对服务器数量、GPU互联、存储吞吐、网络带宽、供电、散热和集群调度要求很高，单纯采购GPU服务器并不能直接形成可用算力。云厂商需要完成机房资源、八卡服务器、交换网络、分布式存储、容器调度、训练平台、故障监控和运维体系的整体部署，才能把硬件资源转化为客户可以持续调用的AI算力服务。

阿里大模型团队已与金山云签署5年期算力租赁合同，涉及3000余台八卡GPU服务器。按签约时月租价格测算，全部交付后月流水约3亿元，年化收入超过40亿元。这类长周期租赁合同对云厂商的意义，不只是增加收入订单，还能提升算力集群建设的确定性。GPU集群前期投入重、建设周期长，如果客户需求不稳定，容易出现设备利用率不足;长期合同可以把建设节奏、服务器采购、机柜部署和运维资源安排得更清楚。

小米需求升级则体现出大模型、手机、汽车和AIoT场景的算力消耗正在放大。小米的AI需求不只来自单一模型训练，还可能涉及智能手机端侧AI、汽车智能座舱、自动驾驶数据处理、语音交互、影像算法、IoT设备协同和企业内部研发平台。万卡集群升级为超大规模算力集群，意味着训练、微调、推理和数据处理任务正在从项目型需求变成长期基础设施需求。

金山云此前已在智算云和AI平台层面做过多轮升级。其智算平台“金山云星流”已从资源管理平台升级为一站式AI训推全流程平台，覆盖异构资源调度、训练任务管理、推理服务和模型API等环节。对大模型客户来说，底层GPU只是基础，真正影响使用效率的是资源能否快速分配、任务能否稳定运行、故障能否自动处理、训练与推理流程能否衔接。

GPU算力集群建设还会带动一批通信与数据中心设备需求。3000余台八卡GPU服务器对应大量高速网络连接、交换机、光模块、网卡、存储设备、机柜、供配电和液冷或风冷系统。算力规模越大，网络架构越重要;大模型训练需要多机多卡协同，如果网络延迟和带宽不足，GPU利用率会被拖低，最终影响客户实际训练效率。

金山云下半年扩建的任务会落在交付节奏上。小米百亿元级预算对应的是更大规模长期算力池，阿里5年期合同对应的是可明确排产的服务器集群。对于云厂商而言，接下来需要把GPU服务器到货、机房上架、网络调试、平台接入和客户验收串起来，算力集群只有完成稳定交付，才能真正转化为训练、推理和云服务收入。

中国