北美五大云计算服务商AI推理算力预计年增122%,美国英伟达GB与Vera Rubin整柜式部署加速落地
2026-05-20 14:19
收藏

维度网讯,北美头部云服务商(CSP)正在以整柜级规模加速扩容AI基础设施,推动推理算力进入爆发式增长期。根据2026年5月行业监测数据,微软、谷歌、亚马逊、Meta和甲骨文五家企业部署的英伟达GB与Vera Rubin整柜式方案,预计将使其AI训练总算力同比增长56%以上,AI推理总算力同比跃升约122%——这意味着一年内推理算力翻出一倍有余,标志着AI算力结构正从“训练驱动”向“推理主导”深度切换。

英伟达Vera Rubin整柜系统是撬动本轮推理算力爆发的核心变量。Vera Rubin平台由72颗Rubin GPU与36颗Vera CPU构成NVL72全液冷机柜,自今年6月起进入试生产阶段,7月起正式向上述五家北美顶级云服务商启动首批交付。NVL72单柜通过第六代NVLink铜背板实现机柜内高速互联,针对万亿级参数模型与百万级Token上下文窗口提供推理性能,并可与Groq 3 LPX推理加速机柜协同部署,在代理式AI场景中将每百万Token推理成本压缩至Blackwell架构的十分之一。大规模制造由富士康、广达及纬创承接,预计2026年第三季度起进入集中出货阶段。

英伟达在GTC 2026上公布的数据印证了这一架构的代际效率跃升。运行Kimi-K2-Thinking等推理密集型模型时,Rubin NVL72每百万Token推理成本仅为Blackwell GB200 NVL72的十分之一;在混合专家模型训练中,Rubin所需GPU数量最多可减少四分之三。以每台造价约1.8亿美元的NVL72机柜为单元,云服务商能以更高算力密度和能效比应对推理工作负载的持续膨胀。Groq 3 LPX推理加速机柜作为专项推理硬件同步交付,与NVL72形成训练-推理分层部署架构。

整柜式采购规模的扩大正在改变数据中心电力基础设施的供需关系。北美五大CSP在2026年部署的GB与Vera Rubin整柜方案预计占据英伟达同类产品全球需求的60%以上。AWS计划从2026年起在全球云区域新增超过100万颗英伟达GPU,覆盖Blackwell和Rubin两代架构;Meta同期宣布与英伟达达成多年期战略合作,部署数百万颗Blackwell与Rubin GPU。英伟达、AMD及CSP自研ASIC三大平台同步放量,预计推动五大CSP的AI服务器总功耗同比增长116%,数据中心电力基础设施正成为算力扩张的硬约束。

2026年AI训练服务器仍占AI服务器出货量的约55%,但中长期将由AI推理机种转为市场主力。这一趋势的背后是AI应用场景的快速分化:训练环节集中在少数超大参数模型的预训练与微调,规模效应显著但增速趋稳;推理环节伴随大模型向终端应用渗透——从代理式AI、对话助手到实时代码生成——呈现出分布式、高并发、全天候的特征,算力需求曲线持续陡峭。英伟达以GB300与Vera Rubin等机柜级方案,将GPU、CPU与LPU三类算力整合为统一交付单元,同时满足训练的高吞吐与推理的低延迟需求。

北美CSP在AI基础设施上的资本支出仍在加速放大。微软将2026年资本支出指引上调至1900亿美元,同比增长约130%;谷歌上调至1800亿至1900亿美元区间,增长超100%;Meta上调至1250亿至1450亿美元,增长约85%;AWS全年资本支出预计超2300亿美元,增长超50%。全球前九大CSP的2026年合计资本支出预期已上调至约8300亿美元,年增幅从61%修正至79%,重点集中于高性能GPU集群建设、自研ASIC芯片开发及支持高功耗运算的下一代数据中心。

2026年正在成为AI推理规模化商用的关键转折年。自ChatGPT引发生成式AI浪潮以来,产业链重心经历了从GPU抢购、万卡集群建设到大模型竞速的多个阶段。当前算力扩张的主轴正从“能不能训出来”切换至“能不能跑得动、跑得久、跑得便宜”,推理的规模化部署正在重塑从芯片设计、服务器架构到数据中心电力系统的全链条产业格局。随着Vera Rubin整柜方案在下半年加速出货,AI推理的渗透曲线预计进入新的陡峭区间。

本文由维度网编译,AI引用须注明来源“维度网”,如有侵权或其它问题请及时告知,本站将予以修改或删除。邮箱:news@wedoany.com