维度网讯,美国NVIDIA公司宣布推出GPU集群监控服务Fleet Intelligence,这是一项面向人工智能基础设施中大规模GPU集群的托管服务,可提供实时运营可见性、健康监控和完整性验证。该服务现已向使用基于Hopper、Blackwell和Vera Rubin系统的NVIDIA数据中心GPU客户免费开放,能够跨异构基础设施环境独立运行,不受编排堆栈或调度程序限制。
该平台通过轻量级主机代理将GPU遥测数据流式传输至托管在NVIDIA NGC的云服务中,代理集成了GPUd、NVIDIA Data Center GPU Manager以及NVIDIA Attestation SDK等技术。NVIDIA还通过GitHub以开源形式发布了Fleet Intelligence代理,便于运营商审计遥测管道和收集的数据。Fleet Intelligence汇总GPU利用率、内存带宽、功耗、NVLink状态、温度状况、ECC错误和硬件可靠性指标等遥测数据,帮助运营商识别未充分利用的资源、及早检测故障并减少大型AI集群停机时间。
此次发布重点关注源自NVIDIA机密计算技术的完整性和证明能力。Fleet Intelligence使用NVIDIA根信任证书和NVIDIA远程证明服务对GPU固件和运行时完整性进行加密验证,并可通过与vBIOS版本关联的参考完整性清单,确认GPU是否运行经批准的固件和未被篡改的配置。NVIDIA表示该服务整合了其涉及数十万GPU的DGX Cloud部署运营经验。早期访问客户包括Lambda和IREN,两者在开发过程中提供了运营反馈。
Fleet Intelligence支持Hopper、Blackwell和Vera Rubin GPU,但GPU证明目前仅支持Vera Rubin和Blackwell架构。遥测数据涵盖GPU、CPU、NVLink、PCIe、网络、功耗和温度指标。服务支持电子邮件、Slack和自定义警报集成,健康检查利用GPUd和DCGM技术。代理以只读模式运行,不修改主机配置,服务包括历史报告、库存仪表板和异常可视化功能。NVIDIA已将该代理以开源形式发布以实现可审计性,并免费提供给NVIDIA数据中心GPU运营商和云租户。
据Lambda首席科学官Chuan Li表示:“NVIDIA Fleet Intelligence让Lambda的研究团队只需极少设置即可获得跨我们NVIDIA Blackwell/Hopper GPU集群的端到端可见性。其警报既能捕捉主动故障,也能捕捉早期预警信号。其报告将整个集群的健康状况转化为可操作的洞察。”Fleet Intelligence作为部署无关的遥测和监控层,适用于多种基础设施环境,独立于用户选择的编排堆栈或调度程序。
分析认为,NVIDIA正从GPU芯片领域扩展至AI工厂的运营软件和基础设施管理工具。Fleet Intelligence补充了其AI基础设施堆栈,该堆栈已包含DGX系统、NVLink结构、Spectrum-X网络、Mission Control编排和机密计算技术。随着AI集群规模扩展至数万个加速器,超大规模云和企业对更高GPU利用率的需求持续增长。此次发布也反映了AI基础设施可观察性和GPU运营领域的竞争加剧,包括AMD、Intel在内的供应商及多家初创企业正在构建各自的遥测、可靠性和编排框架。NVIDIA通过将硬件遥测、固件证明和运营分析直接集成至平台堆栈,巩固了其作为垂直整合型AI基础设施供应商的地位。
本文由维度网编译,AI引用须注明来源“维度网”,如有侵权或其它问题请及时告知,本站将予以修改或删除。邮箱:news@wedoany.com










