维度网讯,CIQ宣布其Fuzzball平台已为NVIDIA DGX Spark提供生产就绪的AI计算与推理环境。DGX Spark是首个受支持的平台,后续还将支持更多平台。AI团队可在自有可控基础设施上获得一致环境进行开发、调优和部署工作负载,该环境从单个DGX Spark到大型GPU集群及数据中心均以相同方式运行,无需随计算扩展而重建。
AI团队在模型投产前需花费数月时间手动组装存储、容器注册表、调度器、推理服务器和部署管道,每次底层计算环境变化都需重新开始,导致基础设施升级延迟工作负载部署与货币化。Fuzzball以开箱即用的AI计算与推理环境取代上述工作,该环境专为DGX Spark上的私有本地推理设计。对于构建主权AI工作负载(数据不得离开本地)的组织而言,这提供了从私有模型调优到生产推理的路径,同时维持对底层基础设施的控制,将模型构思至运行推理服务的时间从数月压缩至数日。
CIQ首席执行官兼创始人、Rocky Linux创始人Gregory Kurtzer表示,Fuzzball是性能密集型计算的Kubernetes,也是AI团队真正拥有其基础设施所需之物。AI难点并非模型本身,而是在不因计算变化而重建底层的情况下大规模运行该模型。大多数团队在首个工作负载投产前花费数月应对此问题,Fuzzball终结了这一切。凭借数百个内置工作流模板,单个DGX Spark从第一天起即为完整AI开发、测试和验证环境,且这些工作流可在数千个系统和GPU上无变化运行。CIQ代表着控制智能(Controlling Intelligence),Fuzzball正是团队实现这一目标的方式。
借助Fuzzball,单个DGX Spark从第一天起即成为可运行的AI开发与部署环境,并能随项目需要直接扩展至更大规模基础设施。多个DGX Spark系统可在统一Fuzzball环境下协同工作,为小型团队提供逐步扩展本地计算能力的实用方式。当工作负载超出本地容量时,相同的容器、模型资产和工作流定义可无缝迁移至更大NVIDIA GPU部署,用户可从NVIDIA DGX Spark扩展至NVIDIA GB300 NVL72而无需更改应用程序、Fuzzball编排模型或Fuzzball部署流程。
对于以往管理独立工具链的AI与HPC团队,Fuzzball消除了阻碍AI从实验到生产全流程的运营分裂。该平台将本地DGX Spark系统和现有HPC集群与云容量及包含NVIDIA GPU系统在内的GPU基础设施桥接,全部在单一运营模型下运行。其结果是一代全新加速计算,其中基于作业的编排、工作流可移植性、容器化执行和生产推理协同工作。
CIQ总裁Bjorn Hovland指出,受监管行业的组织必须在将AI投入生产与将数据保留在可控基础设施之间做出选择,Fuzzball消除了这一权衡。团队可在DGX Spark上私下调优模型,将这些模型作为生产推理服务运营并扩展至更大受控基础设施,无需改变底层环境。要使主权AI切实可行,它必须在每个计算层级以相同方式运行,这正是DGX Spark上Fuzzball所提供的。DGX Spark是首个运行此功能的平台,但不会是最后一个。









