维度网讯,7月2日消息,中国金山云下半年将加速GPU算力集群建设,以满足头部客户快速增长的AI算力需求。相关需求主要来自中国小米集团和中国阿里巴巴大模型团队,其中小米对金山云的GPU算力需求已由万卡集群升级为超大规模算力集群,相关投入预算由最初近40亿元增至百亿元以上。
这次扩建的核心是大规模GPU集群交付能力。AI大模型训练和推理对服务器数量、GPU互联、存储吞吐、网络带宽、供电、散热和集群调度要求很高,单纯采购GPU服务器并不能直接形成可用算力。云厂商需要完成机房资源、八卡服务器、交换网络、分布式存储、容器调度、训练平台、故障监控和运维体系的整体部署,才能把硬件资源转化为客户可以持续调用的AI算力服务。
阿里大模型团队已与金山云签署5年期算力租赁合同,涉及3000余台八卡GPU服务器。按签约时月租价格测算,全部交付后月流水约3亿元,年化收入超过40亿元。这类长周期租赁合同对云厂商的意义,不只是增加收入订单,还能提升算力集群建设的确定性。GPU集群前期投入重、建设周期长,如果客户需求不稳定,容易出现设备利用率不足;长期合同可以把建设节奏、服务器采购、机柜部署和运维资源安排得更清楚。
小米需求升级则体现出大模型、手机、汽车和AIoT场景的算力消耗正在放大。小米的AI需求不只来自单一模型训练,还可能涉及智能手机端侧AI、汽车智能座舱、自动驾驶数据处理、语音交互、影像算法、IoT设备协同和企业内部研发平台。万卡集群升级为超大规模算力集群,意味着训练、微调、推理和数据处理任务正在从项目型需求变成长期基础设施需求。
金山云此前已在智算云和AI平台层面做过多轮升级。其智算平台“金山云星流”已从资源管理平台升级为一站式AI训推全流程平台,覆盖异构资源调度、训练任务管理、推理服务和模型API等环节。对大模型客户来说,底层GPU只是基础,真正影响使用效率的是资源能否快速分配、任务能否稳定运行、故障能否自动处理、训练与推理流程能否衔接。
GPU算力集群建设还会带动一批通信与数据中心设备需求。3000余台八卡GPU服务器对应大量高速网络连接、交换机、光模块、网卡、存储设备、机柜、供配电和液冷或风冷系统。算力规模越大,网络架构越重要;大模型训练需要多机多卡协同,如果网络延迟和带宽不足,GPU利用率会被拖低,最终影响客户实际训练效率。
金山云下半年扩建的任务会落在交付节奏上。小米百亿元级预算对应的是更大规模长期算力池,阿里5年期合同对应的是可明确排产的服务器集群。对于云厂商而言,接下来需要把GPU服务器到货、机房上架、网络调试、平台接入和客户验收串起来,算力集群只有完成稳定交付,才能真正转化为训练、推理和云服务收入。









