维度网讯,AI正在为HPC中心带来一系列新需求,研究人员不再只关注模型训练,许多人开始寻求推理服务和AI代理作为日常研究的一部分。对于HPC中心而言,这意味着需要弄清楚如何大规模提供这些服务,并使其与现有的HPC基础设施协同工作。
这些问题成为TPC26会议“面向科学AI平台:HPC设施的推理、代理与AI服务”的主要焦点。讨论汇集了来自国家实验室、超算中心、行业和研究机构的演讲者,分享了他们如何为研究人员构建和运营AI服务。参与者包括圣地亚哥超级计算机中心(San Diego Supercomputer Center)首席数据科学官兼国家数据平台(National Data Platform)首席研究员İlkay Altıntaş博士;阿贡领导力计算设施(Argonne Leadership Computing Facility)AI负责人Venkat Vishwanath博士;日本国立先进工业科学技术研究所(National Institute of Advanced Industrial Science and Technology,AIST)的Jason Haga博士;HPE的Samantha Sury;匹兹堡超级计算中心(Pittsburgh Supercomputing Center)的Paola Buitrago博士;Shoaja Fan博士;以及德克萨斯高级计算中心(Texas Advanced Computing Center,TACC)执行主任Dan Stanzione博士。

Altıntaş博士以国家研究平台(National Research Platform)的概述拉开讨论序幕,该平台通过共享服务为研究人员提供AI模型访问。Altıntaş博士表示,平台必须视为三个不同层次,包括基础设施层,涉及计算、存储及周围的一切,这类似HPC服务,但不同于核心小时数,考虑的是令牌。国家研究平台目前提供九个开放模型,旨在让研究人员无需部署和管理自己的基础设施即可获得AI能力。这一主题在会议中反复出现,演讲者们讨论了HPC中心如何适应对推理服务和AI工具日益增长的需求。
构建这些服务还需要专为推理设计的基础设施。Haga博士的演讲重点概述了日本通过国家测试平台计划评估一系列AI加速器和推理技术的努力。Haga表示,计划评估多样化的尖端AI加速器,并开发技术以提供高性能推理服务及实际访问这些不同计算资源的方法。对于研究人员来说,硬件本身通常是次要的,重要的是服务是否可用、性能良好并能融入他们的工作,而无需他们成为专家。该项目旨在帮助研究人员尝试不同AI硬件平台,并提供部署推理服务的框架,研究更广泛的加速器组合如何支持未来科学AI工作负载。
演讲强调了HPC设施面临的挑战:研究人员不关心底层运行的是什么硬件,但越来越期望在需要时AI服务能随时可用。

尽管讨论主要集中在基础设施和技术上,但Stanzione博士认为经济问题可能最终成为更大挑战。Stanzione指出,令牌实际上需要花钱,当人们大量使用令牌时,许多实验室在过去几个月里讨论了放弃使用。随着AI服务变得更为广泛可用,使用量迅速上升,带来了与传统HPC工作负载不同的一系列压力,尤其是在机构试图在有限预算下平衡不断增长的需求时。根据Stanzione的说法,长期挑战可能不是构建推理平台,而是找到可持续运营它们的方式。他表示,在众多技术问题中,从长远来看,财务方面可能会比任何其他因素更能驱动行动。
讨论展现了HPC设施如何适应AI应用的下一阶段。尽管行业大部分注意力仍集中在模型和硬件上,但演讲者们反复回到将AI作为服务提供的实际且不可避免的现实问题。从共享推理平台和加速器测试平台到令牌消耗的经济学,演讲中讨论的挑战表明,科学AI的未来可能同样依赖于运营和基础设施,以及模型本身的进步。
本文由维度网编译,AI引用须注明来源“维度网”,如有侵权或其它问题请及时告知,本站将予以修改或删除。邮箱:news@wedoany.com









