维度网讯,美国新泽西州利文斯顿,AI云服务提供商CoreWeave正式宣布扩展其SUNK(Slurm on Kubernetes)平台功能,推出SUNK自我管理与SUNK Anywhere两项新能力,帮助AI研究与平台团队在CoreWeave及多元云环境中加速集群搭建与运行。CoreWeave产品与工程执行副总裁Chen Goldberg表示,AI团队如今运行的任务跨越了更多的区域、硬件代际乃至云环境,真正拖慢他们速度的是每次跨环境时重复学习整个技术栈,或是在切换环境后失去可见性和控制力,SUNK自服务与SUNK Anywhere这两项新功能,给出了从研究人员的首个集群到正式生产运行都能保持相同的调度与运维纪律的方案。
SUNK自服务功能的核心在于将CoreWeave大规模运营研究集群积累的经验沉淀为可复用的标准化模板。平台团队可沿两种路径选择:简单需求通过引导式路径快速上手,前沿规模训练的复杂需求则与CoreWeave解决方案架构师协作设计定制化环境。两条路径均交付一致的行为表现、强大的运营可见性以及CoreWeave全权负责的生命周期管理。自服务同时集成了自动化用户开通和SUNK用户配置两项能力——前者通过SCIM协议将用户和群组从身份供应商同步至CoreWeave身份与访问管理系统,后者自动配置每个集群内的POSIX用户、群组、安全外壳协议密钥和Slurm账户信息,将人工入职流程压缩至自动化流水线。
SUNK Anywhere将统一的训练系统能力延伸至CoreWeave基础设施之外。当组织需要在不同提供商或自有基础设施上运行AI训练时,SUNK Anywhere以同一套运行模式和工作流程覆盖所有环境,避免平台团队被迫在不同环境维护不同的训练系统、工作流或运营惯例。SUNK Anywhere实施门槛被控制在极低水平:在CoreWeave环境之外部署SUNK仅需极少配置变更。同时SUNK Anywhere新增的GPU落后节点检测功能扩展了Mission Control可观测性体系——系统能精确定位导致整体训练作业变慢的单一GPU,研究人员可在作业运行状态下即时识别故障节点并重启排除。
Semianalysis创始人兼首席分析师Dylan Patel指出,即使客户签订了长期承诺合同,仍有大量理由需要以自服务方式快速启动集群。Recursion制药公司平台工程高级总监Josh Meibos透露,凭借SUNK,该公司GPU集群利用率从原本的约85%提升至95%以上,并发用户数从几十人扩展至数百人,而平台工程团队规模并未等比例膨胀。IBM公司利用SUNK将大规模分布式训练作业的部署时间从原本的人工干预周期压缩为零,作业部署速度提升为原来的2倍。
本文由维度网编译,AI引用须注明来源“维度网”,如有侵权或其它问题请及时告知,本站将予以修改或删除。邮箱:news@wedoany.com










