美国HPE推出256 GPU交钥匙AI工厂

2026-06-24 11:15

关键词:

维度网讯，HPE在拉斯维加斯举办的HPE Discover大会上大幅扩展了其AI平台。该平台之前最多支持64个GPU，现在上限提升至256个GPU。客户可从较小的配置起步，后续通过增加机架来扩展性能。除了配备Nvidia加速器的ProLiant服务器，该系统还集成了存储、Data Fabric，以及用于模型、AI应用程序和代理的软件，其中Morpheus负责控制，OpsRamp负责监控。

安装和集成服务已包含在报价中。HPE以固定总价提供整体环境，目标是让企业无需自行拼凑由单个硬件、软件和其他组件构成的AI工厂。HPE的Private Cloud AI集成了Nvidia AI Enterprise、精选模型和开发工具，以及Nvidia Agent Toolkit、Nemotron模型、NemoClaw和OpenShell。代理可通过这些工具进行注册、部署并设置访问规则。在计算方面，该产品补充了配备Nvidia RTX Pro 6000 Blackwell Server Edition的系统。

此外，HPE还发布了搭载Nvidia基于Arm架构Vera CPU的ProLiant DL394 Gen12。该CPU负责处理代理应用中内存和控制器密集型部分，并与Nvidia GPU紧密协作。因此，HPE的Private Cloud AI主要围绕Nvidia的硬件和软件栈构建，这种紧密配合降低了集成工作量，但也意味着在加速器和运行时环境的选择上灵活性降低。

Alletra Storage MP X10000在新的AI平台中扮演核心角色。该平台在统一架构上提供文件和对象存储，并直接集成到Private Cloud AI中。HPE还将其用作与性能相关的KV缓存的扩展存储。语言模型在KV缓存中存储有关已处理文本、上下文和中间结果的信息。当收到进一步请求时，模型会回退到这些上下文，而不是每次都重新计算。

这对于较长的提示、大量文档以及多个并行代理尤为重要。上下文越长、同时运行的请求越多，存储需求增长得就越快。如果旧的上下文信息被清除，模型必须在后续请求中重新计算，这会增加延迟、能耗和成本。在代理环境中，问题更为突出，因为代理不仅响应一次，而是反复进行查证、规划、检索数据和准备操作。

因此，HPE通过远程直接内存访问（Remote Direct Memory Access）将部分KV缓存卸载到X10000上。在该过程中，数据直接在存储和内存间传输，无需经过操作系统的多个处理层。这样，存储单元承担了部分GPU内存，并成为推理过程的一部分。据HPE称，在其使用Nvidia H200 GPU和Nemotron 70B模型的测试配置中，首次输出token的时间缩短为原来的二十分之一，同时吞吐量提升至原来的17倍。

新的Data Fabric 8.2可以捕获和编目分布式数据资源。全局目录能显示有哪些信息及其所在位置。元数据、身份和访问策略决定了哪些应用程序或代理可以访问特定资源。Data Fabric还作为预配置设备在ProLiant服务器上提供。在整个技术栈中，X10000负责快速访问数据，而Data Fabric则使数据资源可被发现并受控可用。

然而，仅靠技术性数据组织并不能使数据适合AI。对于训练和代理，数据必须首先进行分类、清理、描述并设置权限。尽管有自动化工具，该过程仍部分需要手动完成。例如，业务部门必须解释某些数据的含义、时效性以及用途。

为了运营集成的AI环境，HPE依赖于Morpheus、OpsRamp和GreenLake Intelligence。Morpheus提供计算、存储和运行时资源，并编排私有云基础设施。OpsRamp收集遥测数据，并监控应用程序、模型和底层基础设施之间的依赖关系。目前，这些运营功能与AI驱动的自动化之间的连接更加紧密。Morpheus Central旨在跨数据中心、区域和边缘站点展示多个安装实例。

这对于AI环境很重要，因为模型、数据和推理服务通常不在单一位置运行。OpsRamp不仅能收集故障，还能进行关联并识别基础设施中的根本原因。HPE通过Copilot功能和MCP接口扩展了这一层。Morpheus Copilot可以根据自然语言指令创建蓝图和自动化。OpsRamp Copilot则应分析事件并支持补救措施。MCP服务器提供标准化接口，代理可通过这些接口访问管理和自动化功能。GreenLake Intelligence将这些功能整合到统一的控制平面中。

HPE为技术栈补充了控制AI代理的功能。这些代理拥有自己的身份并在隔离环境中运行。策略规定了它们可以使用哪些数据、接口和工具。对于关键操作，可以要求人工审批。Zerto提供了额外的回退层，该软件会记录更改，并在必要时将受影响的系统恢复到先前状态。然而，它无法识别决策在技术上是否错误或监管上是否不被允许。

对于HPE而言，治理主要指技术访问控制和策略执行。业务模型验证、偏差检测、监管分类以及责任分配仍然是平台之外的任务。这正是许多私有AI战略的短板。虽然自有基础设施增加了对数据和运营的控制，但不能替代治理。IBM和Red Hat最近曾指出，许多企业对AI供应商、模型和基础设施的依赖关系了解不完全。私有云可以使这些依赖关系更加透明，但无法消除它们。

市场上的AI工厂产品差异明显。例如，Dell采用分解式基础设施，计算和存储可以独立扩展。相比之下，HPE将硬件、数据平台和运营软件更紧密地捆绑成一个确定的整体系统。这使集成工作从客户转移到制造商，但减少了自由度，特别是对Nvidia的依赖增加，因为HPE除了GPU外还集成了合作伙伴的CPU、模型、运行时环境和代理工具。优势在于组件协调良好；缺点在于，若想更换单个组件，将更快触及架构的局限。

HPE将AI产品作为私有云符合当前趋势。随着AI从试点项目转移到生产运营，基础设施的计算方式也在变化：公有云服务对于测试、灵活负载和快速访问新模型仍有吸引力；而对于持久推理、代理工作流和敏感数据，成本控制和数据访问则成为重点。德勤（Deloitte）认为，在持续高AI负载下存在经济转折点：当云成本达到可比自有系统成本的大部分时，私有云方案可能更便宜。福瑞斯特（Forrester）也预计，由于AI成本上升、数据锁定和运营风险，企业将更多地采用私有AI云。HPE的Private Cloud AI并非作为公有云的对立面，而是作为必须更接近数据和流程的AI工作负载的运营平台。值得注意的是，完整技术栈尚未完全就绪，部分宣布的功能和集成将在未来几个季度才能上市。

本文由维度网编译，AI引用须注明来源“维度网”，如有侵权或其它问题请及时告知，本站将予以修改或删除。邮箱：news@wedoany.com

美国