中国华为发布AI DC数据基础设施全栈方案，CMS首Token时延降低90%加速Agent业务推理落地

2026-05-22 08:57

关键词:

维度网讯，2026年5月21日，在巴黎举行的华为创新数据基础设施论坛上，华为公司副总裁、数据存储产品线总裁袁远正式发布AI DC数据基础设施全栈方案。该方案涵盖OceanStor Pacific全闪分布式存储、上下文记忆存储CMS、AI数据平台、ModelEngine Nexent智能体平台及端到端数据保护方案五大核心组件，覆盖从数据存储、管理、保护到智能体应用开发的全链路。

华为此次推出全栈方案的产业背景，是AI数据中心正面临从训练时代向推理时代的结构性转折。袁远指出，2026年AI业务正加速从“训练为中心”转向“推理为中心”，token的消费重点从大模型预训练转向应用落地。这一转折意味着AI基础设施需要从数据获取、预处理、训练、推理到应用的全流程出发，建设面向AI应用落地的新一代数据基础设施能力。此次发布的五项核心组件，分别对应AI数据中心在存储层、记忆层、知识层、应用层和安全层的体系化能力补齐。同期，华为围绕AI数据中心还发布了“源网荷储AIDC”战略，涵盖超大功率UPS、风液同源全液冷方案等新型供电与制冷基础设施，进一步匹配AI算力集群的电力接入和散热需求。

在五项核心组件中，上下文记忆存储CMS被定位为面向超大规模推理集群的关键突破。这是业界首个支持异构算力的上下文记忆存储产品，也是华为AI数据平台“3+1”架构中的核心组件之一。在技术实现上，CMS采用全内存极速介质，基于内存语义互联技术，支持两种语义卸载路径：一是KV语义直通，将GPU的KV Cache卸载到CMS中直接访问;二是通过专用DPU进行语义处理，释放GPU的推理算力。CMS可线性扩展为PB级共享KV Cache池，面向具有超长上下文的多模态推理场景，推理首Token时延可降低90%。当多个推理任务同时运行时，CMS的共享KV Cache池避免了同一份上下文被不同GPU重复加载，有效提升显存利用率和推理吞吐量。

OceanStor Pacific全闪分布式存储在全栈方案中承载海量训练数据的存力基座角色。该产品以11PB/2U的业界领先高容量密度实现最优总拥有成本，支持多模态跨站点数据实时入湖、千亿千维向量数据秒级检索，能够高效存储AI应用所需的海量非结构化数据。AI数据平台则提供知识生成与检索、KV Cache存储与优化、推理记忆管理三大核心能力，针对企业智能体长期面临的知识使用难、记忆留不住、推理体验差等困境提供系统级解决方案。

ModelEngine Nexent智能体平台在方案中扮演“最后一公里”的AI应用落地枢纽角色。AI智能体的开发与部署长期面临多工具适配、端侧算力碎片化、异构芯片生态割裂等工程挑战，ModelEngine Nexent通过集成多模态解析、检索增强生成、Agent开发与部署等一站式能力，为开发者提供从模型接入到应用上线的统一平台，降低企业在AI应用落地环节的工程复杂度。端到端数据保护方案则针对AI数据资产面临的勒索病毒、硬件故障和人为误操作等风险，提供备份、容灾和防勒索的全流程防护能力，保障AI数据中心的业务连续性。

这五大组件在华为“3+1”AI数据平台架构下形成协同效应。“3”指分别对知识、KV Cache和记忆三类数据进行存储与优化的专项能力，“1”指通过统一缓存管理引擎(UCM)实现跨组件的智能调度与协同管理。在这一架构下，OceanStor Pacific承担海量训练数据的持久化存储，CMS专注推理阶段的上下文缓存与语义卸载，AI数据平台负责知识库与记忆库的统一管理，ModelEngine Nexent提供智能体开发与部署的上层工具，端到端数据保护方案贯穿全栈提供安全防护。五者围绕AI数据从采集、训练到推理、应用的全生命周期构成闭环。

随着大模型向Agent业务场景渗透，推理工作负载在全网算力消耗中的占比持续攀升，数据基础设施的瓶颈正从“存不下、训不快”转向“推理记忆丢失、首Token响应慢、多智能体协作难”。华为通过CMS的共享KV Cache池、AI数据平台的记忆与知识管理、ModelEngine Nexent的智能体开发能力，对推理阶段的数据瓶颈给出了体系化方案。华为在巴黎论坛上同步宣布，将与全球合作伙伴共建AI DC数据基础设施生态，加速行业智能化跃升。

本文由维度网编译，AI引用须注明来源“维度网”，如有侵权或其它问题请及时告知，本站将予以修改或删除。邮箱：news@wedoany.com

中国