美国超微电脑发布1152 GPU可扩展AI数据中心蓝图
2026-06-02 09:53
收藏

维度网讯,超微电脑(Super Micro Computer, Inc.)推出基于英伟达(NVIDIA)Vera Rubin NVL72和NVIDIA HGX Rubin NVL8平台的数据中心构建块解决方案(DCBBS)蓝图。这些蓝图专为吉瓦级AI数据中心部署而设计,从单个包含1152个GPU的可扩展单元起步,该单元可扩展至几乎任何规模。Supermicro的DCBBS蓝图提供从设计到交付的端到端整体解决方案,并配备一支专属专家团队覆盖整个部署生命周期。该方案整合了计算、存储、网络、先进液冷、配电和现场基础设施,以加快大规模液冷AI工厂的上线速度。

Supermicro的DCBBS蓝图致力于解决全球最先进AI基础设施在实际实施中面临的挑战。NVIDIA Vera Rubin平台显著提升了AI工厂的性能密度,在多个计算领域实现速度翻倍。NVIDIA的最新参考架构精确定义了理想的1152 GPU可扩展单元应包含的内容,而Supermicro的DCBBS蓝图则定义了成功部署的具体步骤。Supermicro在部署配备超过10万个GPU的全球最大液冷AI工厂方面,拥有经过验证的实战记录。

规划AI工厂建设或改造的客户普遍面临一个刚性约束:可用电力。针对NVIDIA Vera Rubin NVL72的DCBBS蓝图提供了指定功率范围(从5MW到1GW)内的均衡物料清单,并合理配置了冷却能力、电力输送、计算节点、管理节点、高性能存储节点、上下文内存存储平台节点和网络的比例,以消除因网络超额订阅、功率容量限制或热节流等障碍导致的性能瓶颈。

这些蓝图涵盖了Supermicro用于以创纪录速度完成大规模AI项目的完整端到端流程。现场设施调查由Supermicro专属团队进行,分析物理场地与部署要求的匹配情况,包括装卸码头、数据大厅尺寸、净空、平面图和地板负载等级等。项目设计和方案将所有关键细节纳入根据客户要求和设施约束定制的建设计划,Supermicro会定义DCBBS组件的正确组合,例如冷却方案:对于完全直接液冷兼容的设施,提供高达1.8MW的机排冷却分配单元(CDU);对于无设施水基础设施的场地,提供液-气侧挂单元;同时正在开发基于52U机柜配置的机架内CDU选项,以及用于高环境温度环境的补充后门热交换器选项。在带全面现场服务的解决方案集成阶段,大部分工作在其美国制造工厂完成,包括每个机架内的上架、堆叠和布线。Supermicro通过超出行业标准的测试流程验证功能,覆盖系统级(L10)和集群级(L11)多节点测试。专属团队管理CDU、冷却塔和电力基础设施等现场组件的物流,包括与客户选择的第三方供应商协调。集成交付服务和现场集成涵盖机架放置、电力和冷却连接、网络布线、系统调试、软件栈安装及现场验证。在支持、服务和软件方面,提供一系列持续的现场选项,包括对关键任务正常运行时间要求提供最快4小时现场响应,并支持与Supermicro SuperCloud Composer和SuperCloud Director等基础设施管理工具集成,实现从裸机管理到多租户工作负载编排的统一控制,同时整合NVIDIA AI Enterprise和NVIDIA Run:ai等软件栈。

NVIDIA Vera Rubin平台具备带来变革性代际性能提升的潜力,但需要可重复且可靠的方法来成功部署。Supermicro确保方案与最新的NVIDIA参考架构保持一致,让客户确信其部署与NVIDIA云合作伙伴生态系统一致。Supermicro DCBBS蓝图核心的可扩展单元提供1152个NVIDIA Rubin GPU,配备331TB的HBM4 GPU内存。与NVIDIA Blackwell相比,Vera Rubin代将GPU内存带宽、GPU到GPU NVLink带宽和每GPU网络带宽均翻倍,为训练和推理拥有数万亿参数的顶级AI模型提供了架构基础。其配套基础设施包括:先进直接液冷技术栈(DLC-2),涵盖5MW冷却塔、4个最高1.8MW的机排CDU、16个垂直安装的冷却分配歧管、576个直接芯片铜冷水板,以及具备优异化学和热稳定性的Supermicro SMC PG25-A冷却液,并提供200kW和500kW的液-气选项;配电基础设施,从中压变压器到低压配电、机架级电源架和电池备份单元(BBU),每个Vera Rubin NVL72机架配备四个110kW电源架和冗余的18.3kW电源单元,并支持可提供即时切换备用电源的电池储能系统(BESS);优化的48U和52U机柜;16个针对NVIDIA Vera Rubin NVL72和NVIDIA HGX Rubin NVL8平台优化的计算机架;6个网络机架(4个计算用、2个融合用),支持NVIDIA Spectrum-X以太网或NVIDIA Quantum-X800 InfiniBand,计算结构速率高达1.6TB/s,并基于共封装光学器件(CPO)提供无需可插拔收发器的硅光子网络选项;4个基于Supermicro Petascale服务器平台的高性能存储机架,用于NVMe层应用存储和模型训练检查点;此外还有2个上下文内存存储平台机架,专为长上下文推理、代理工作记忆和检索工作负载优化。更多信息可访问supermicro.com/vera-rubin。

本文由维度网编译,AI引用须注明来源“维度网”,如有侵权或其它问题请及时告知,本站将予以修改或删除。邮箱:news@wedoany.com