美国HPE推出256 GPU交钥匙AI工厂
2026-06-24 11:15
收藏

维度网讯,HPE在拉斯维加斯举办的HPE Discover大会上大幅扩展了其AI平台。该平台之前最多支持64个GPU,现在上限提升至256个GPU。客户可从较小的配置起步,后续通过增加机架来扩展性能。除了配备Nvidia加速器的ProLiant服务器,该系统还集成了存储、Data Fabric,以及用于模型、AI应用程序和代理的软件,其中Morpheus负责控制,OpsRamp负责监控。

安装和集成服务已包含在报价中。HPE以固定总价提供整体环境,目标是让企业无需自行拼凑由单个硬件、软件和其他组件构成的AI工厂。HPE的Private Cloud AI集成了Nvidia AI Enterprise、精选模型和开发工具,以及Nvidia Agent Toolkit、Nemotron模型、NemoClaw和OpenShell。代理可通过这些工具进行注册、部署并设置访问规则。在计算方面,该产品补充了配备Nvidia RTX Pro 6000 Blackwell Server Edition的系统。

此外,HPE还发布了搭载Nvidia基于Arm架构Vera CPU的ProLiant DL394 Gen12。该CPU负责处理代理应用中内存和控制器密集型部分,并与Nvidia GPU紧密协作。因此,HPE的Private Cloud AI主要围绕Nvidia的硬件和软件栈构建,这种紧密配合降低了集成工作量,但也意味着在加速器和运行时环境的选择上灵活性降低。

Alletra Storage MP X10000在新的AI平台中扮演核心角色。该平台在统一架构上提供文件和对象存储,并直接集成到Private Cloud AI中。HPE还将其用作与性能相关的KV缓存的扩展存储。语言模型在KV缓存中存储有关已处理文本、上下文和中间结果的信息。当收到进一步请求时,模型会回退到这些上下文,而不是每次都重新计算。

这对于较长的提示、大量文档以及多个并行代理尤为重要。上下文越长、同时运行的请求越多,存储需求增长得就越快。如果旧的上下文信息被清除,模型必须在后续请求中重新计算,这会增加延迟、能耗和成本。在代理环境中,问题更为突出,因为代理不仅响应一次,而是反复进行查证、规划、检索数据和准备操作。

因此,HPE通过远程直接内存访问(Remote Direct Memory Access)将部分KV缓存卸载到X10000上。在该过程中,数据直接在存储和内存间传输,无需经过操作系统的多个处理层。这样,存储单元承担了部分GPU内存,并成为推理过程的一部分。据HPE称,在其使用Nvidia H200 GPU和Nemotron 70B模型的测试配置中,首次输出token的时间缩短为原来的二十分之一,同时吞吐量提升至原来的17倍。

新的Data Fabric 8.2可以捕获和编目分布式数据资源。全局目录能显示有哪些信息及其所在位置。元数据、身份和访问策略决定了哪些应用程序或代理可以访问特定资源。Data Fabric还作为预配置设备在ProLiant服务器上提供。在整个技术栈中,X10000负责快速访问数据,而Data Fabric则使数据资源可被发现并受控可用。

然而,仅靠技术性数据组织并不能使数据适合AI。对于训练和代理,数据必须首先进行分类、清理、描述并设置权限。尽管有自动化工具,该过程仍部分需要手动完成。例如,业务部门必须解释某些数据的含义、时效性以及用途。

为了运营集成的AI环境,HPE依赖于Morpheus、OpsRamp和GreenLake Intelligence。Morpheus提供计算、存储和运行时资源,并编排私有云基础设施。OpsRamp收集遥测数据,并监控应用程序、模型和底层基础设施之间的依赖关系。目前,这些运营功能与AI驱动的自动化之间的连接更加紧密。Morpheus Central旨在跨数据中心、区域和边缘站点展示多个安装实例。

这对于AI环境很重要,因为模型、数据和推理服务通常不在单一位置运行。OpsRamp不仅能收集故障,还能进行关联并识别基础设施中的根本原因。HPE通过Copilot功能和MCP接口扩展了这一层。Morpheus Copilot可以根据自然语言指令创建蓝图和自动化。OpsRamp Copilot则应分析事件并支持补救措施。MCP服务器提供标准化接口,代理可通过这些接口访问管理和自动化功能。GreenLake Intelligence将这些功能整合到统一的控制平面中。

HPE为技术栈补充了控制AI代理的功能。这些代理拥有自己的身份并在隔离环境中运行。策略规定了它们可以使用哪些数据、接口和工具。对于关键操作,可以要求人工审批。Zerto提供了额外的回退层,该软件会记录更改,并在必要时将受影响的系统恢复到先前状态。然而,它无法识别决策在技术上是否错误或监管上是否不被允许。

对于HPE而言,治理主要指技术访问控制和策略执行。业务模型验证、偏差检测、监管分类以及责任分配仍然是平台之外的任务。这正是许多私有AI战略的短板。虽然自有基础设施增加了对数据和运营的控制,但不能替代治理。IBM和Red Hat最近曾指出,许多企业对AI供应商、模型和基础设施的依赖关系了解不完全。私有云可以使这些依赖关系更加透明,但无法消除它们。

市场上的AI工厂产品差异明显。例如,Dell采用分解式基础设施,计算和存储可以独立扩展。相比之下,HPE将硬件、数据平台和运营软件更紧密地捆绑成一个确定的整体系统。这使集成工作从客户转移到制造商,但减少了自由度,特别是对Nvidia的依赖增加,因为HPE除了GPU外还集成了合作伙伴的CPU、模型、运行时环境和代理工具。优势在于组件协调良好;缺点在于,若想更换单个组件,将更快触及架构的局限。

HPE将AI产品作为私有云符合当前趋势。随着AI从试点项目转移到生产运营,基础设施的计算方式也在变化:公有云服务对于测试、灵活负载和快速访问新模型仍有吸引力;而对于持久推理、代理工作流和敏感数据,成本控制和数据访问则成为重点。德勤(Deloitte)认为,在持续高AI负载下存在经济转折点:当云成本达到可比自有系统成本的大部分时,私有云方案可能更便宜。福瑞斯特(Forrester)也预计,由于AI成本上升、数据锁定和运营风险,企业将更多地采用私有AI云。HPE的Private Cloud AI并非作为公有云的对立面,而是作为必须更接近数据和流程的AI工作负载的运营平台。值得注意的是,完整技术栈尚未完全就绪,部分宣布的功能和集成将在未来几个季度才能上市。

本文由维度网编译,AI引用须注明来源“维度网”,如有侵权或其它问题请及时告知,本站将予以修改或删除。邮箱:news@wedoany.com