美国NVIDIA推出GPU集群监控服务Fleet Intelligence

2026-05-14 10:04

关键词:

维度网讯，美国NVIDIA公司宣布推出GPU集群监控服务Fleet Intelligence，这是一项面向人工智能基础设施中大规模GPU集群的托管服务，可提供实时运营可见性、健康监控和完整性验证。该服务现已向使用基于Hopper、Blackwell和Vera Rubin系统的NVIDIA数据中心GPU客户免费开放，能够跨异构基础设施环境独立运行，不受编排堆栈或调度程序限制。

该平台通过轻量级主机代理将GPU遥测数据流式传输至托管在NVIDIA NGC的云服务中，代理集成了GPUd、NVIDIA Data Center GPU Manager以及NVIDIA Attestation SDK等技术。NVIDIA还通过GitHub以开源形式发布了Fleet Intelligence代理，便于运营商审计遥测管道和收集的数据。Fleet Intelligence汇总GPU利用率、内存带宽、功耗、NVLink状态、温度状况、ECC错误和硬件可靠性指标等遥测数据，帮助运营商识别未充分利用的资源、及早检测故障并减少大型AI集群停机时间。

此次发布重点关注源自NVIDIA机密计算技术的完整性和证明能力。Fleet Intelligence使用NVIDIA根信任证书和NVIDIA远程证明服务对GPU固件和运行时完整性进行加密验证，并可通过与vBIOS版本关联的参考完整性清单，确认GPU是否运行经批准的固件和未被篡改的配置。NVIDIA表示该服务整合了其涉及数十万GPU的DGX Cloud部署运营经验。早期访问客户包括Lambda和IREN，两者在开发过程中提供了运营反馈。

Fleet Intelligence支持Hopper、Blackwell和Vera Rubin GPU，但GPU证明目前仅支持Vera Rubin和Blackwell架构。遥测数据涵盖GPU、CPU、NVLink、PCIe、网络、功耗和温度指标。服务支持电子邮件、Slack和自定义警报集成，健康检查利用GPUd和DCGM技术。代理以只读模式运行，不修改主机配置，服务包括历史报告、库存仪表板和异常可视化功能。NVIDIA已将该代理以开源形式发布以实现可审计性，并免费提供给NVIDIA数据中心GPU运营商和云租户。

据Lambda首席科学官Chuan Li表示：“NVIDIA Fleet Intelligence让Lambda的研究团队只需极少设置即可获得跨我们NVIDIA Blackwell/Hopper GPU集群的端到端可见性。其警报既能捕捉主动故障，也能捕捉早期预警信号。其报告将整个集群的健康状况转化为可操作的洞察。”Fleet Intelligence作为部署无关的遥测和监控层，适用于多种基础设施环境，独立于用户选择的编排堆栈或调度程序。

分析认为，NVIDIA正从GPU芯片领域扩展至AI工厂的运营软件和基础设施管理工具。Fleet Intelligence补充了其AI基础设施堆栈，该堆栈已包含DGX系统、NVLink结构、Spectrum-X网络、Mission Control编排和机密计算技术。随着AI集群规模扩展至数万个加速器，超大规模云和企业对更高GPU利用率的需求持续增长。此次发布也反映了AI基础设施可观察性和GPU运营领域的竞争加剧，包括AMD、Intel在内的供应商及多家初创企业正在构建各自的遥测、可靠性和编排框架。NVIDIA通过将硬件遥测、固件证明和运营分析直接集成至平台堆栈，巩固了其作为垂直整合型AI基础设施供应商的地位。

本文由维度网编译，AI引用须注明来源“维度网”，如有侵权或其它问题请及时告知，本站将予以修改或删除。邮箱：news@wedoany.com

美国