北美五大云计算服务商AI推理算力预计年增122%，美国英伟达GB与Vera Rubin整柜式部署加速落地

2026-05-20 14:19

关键词:

维度网讯，北美头部云服务商(CSP)正在以整柜级规模加速扩容AI基础设施，推动推理算力进入爆发式增长期。根据2026年5月行业监测数据，微软、谷歌、亚马逊、Meta和甲骨文五家企业部署的英伟达GB与Vera Rubin整柜式方案，预计将使其AI训练总算力同比增长56%以上，AI推理总算力同比跃升约122%——这意味着一年内推理算力翻出一倍有余，标志着AI算力结构正从“训练驱动”向“推理主导”深度切换。

英伟达Vera Rubin整柜系统是撬动本轮推理算力爆发的核心变量。Vera Rubin平台由72颗Rubin GPU与36颗Vera CPU构成NVL72全液冷机柜，自今年6月起进入试生产阶段，7月起正式向上述五家北美顶级云服务商启动首批交付。NVL72单柜通过第六代NVLink铜背板实现机柜内高速互联，针对万亿级参数模型与百万级Token上下文窗口提供推理性能，并可与Groq 3 LPX推理加速机柜协同部署，在代理式AI场景中将每百万Token推理成本压缩至Blackwell架构的十分之一。大规模制造由富士康、广达及纬创承接，预计2026年第三季度起进入集中出货阶段。

英伟达在GTC 2026上公布的数据印证了这一架构的代际效率跃升。运行Kimi-K2-Thinking等推理密集型模型时，Rubin NVL72每百万Token推理成本仅为Blackwell GB200 NVL72的十分之一;在混合专家模型训练中，Rubin所需GPU数量最多可减少四分之三。以每台造价约1.8亿美元的NVL72机柜为单元，云服务商能以更高算力密度和能效比应对推理工作负载的持续膨胀。Groq 3 LPX推理加速机柜作为专项推理硬件同步交付，与NVL72形成训练-推理分层部署架构。

整柜式采购规模的扩大正在改变数据中心电力基础设施的供需关系。北美五大CSP在2026年部署的GB与Vera Rubin整柜方案预计占据英伟达同类产品全球需求的60%以上。AWS计划从2026年起在全球云区域新增超过100万颗英伟达GPU，覆盖Blackwell和Rubin两代架构;Meta同期宣布与英伟达达成多年期战略合作，部署数百万颗Blackwell与Rubin GPU。英伟达、AMD及CSP自研ASIC三大平台同步放量，预计推动五大CSP的AI服务器总功耗同比增长116%，数据中心电力基础设施正成为算力扩张的硬约束。

2026年AI训练服务器仍占AI服务器出货量的约55%，但中长期将由AI推理机种转为市场主力。这一趋势的背后是AI应用场景的快速分化：训练环节集中在少数超大参数模型的预训练与微调，规模效应显著但增速趋稳;推理环节伴随大模型向终端应用渗透——从代理式AI、对话助手到实时代码生成——呈现出分布式、高并发、全天候的特征，算力需求曲线持续陡峭。英伟达以GB300与Vera Rubin等机柜级方案，将GPU、CPU与LPU三类算力整合为统一交付单元，同时满足训练的高吞吐与推理的低延迟需求。

北美CSP在AI基础设施上的资本支出仍在加速放大。微软将2026年资本支出指引上调至1900亿美元，同比增长约130%;谷歌上调至1800亿至1900亿美元区间，增长超100%;Meta上调至1250亿至1450亿美元，增长约85%;AWS全年资本支出预计超2300亿美元，增长超50%。全球前九大CSP的2026年合计资本支出预期已上调至约8300亿美元，年增幅从61%修正至79%，重点集中于高性能GPU集群建设、自研ASIC芯片开发及支持高功耗运算的下一代数据中心。

2026年正在成为AI推理规模化商用的关键转折年。自ChatGPT引发生成式AI浪潮以来，产业链重心经历了从GPU抢购、万卡集群建设到大模型竞速的多个阶段。当前算力扩张的主轴正从“能不能训出来”切换至“能不能跑得动、跑得久、跑得便宜”，推理的规模化部署正在重塑从芯片设计、服务器架构到数据中心电力系统的全链条产业格局。随着Vera Rubin整柜方案在下半年加速出货，AI推理的渗透曲线预计进入新的陡峭区间。

本文由维度网编译，AI引用须注明来源“维度网”，如有侵权或其它问题请及时告知，本站将予以修改或删除。邮箱：news@wedoany.com

美国