华为与中国移动湖北完成AI推理加速商用网验证

2026-06-29 10:46

关键词:

维度网讯，华为与中国移动湖北合作，在中国通信行业首次完成AI推理加速解决方案（AI Inference Acceleration Solution）的商用网验证。该成果于6月24日至26日在上海新国际博览中心（SNIEC）N1展厅举办的2026年世界移动通信大会上海展（MWC上海2026）上发布。

华为MWC上海2026活动全景

随着AI应用向智能体（agent）模式演进，代码生成和多轮对话等需要处理长上下文的场景日益增多。但片上内存和DRAM容量有限，导致KV缓存（键值缓存）命中率降低，影响推理性能。

华为以OceanStor A800存储、昇腾A3 SuperPOD（Ascend A3 SuperPoD）和2025年推出的统一缓存管理器（UCM, Unified Cache Manager）为核心构建方案。UCM利用外部高性能存储，实现PB级KV缓存，突破片上内存和DRAM容量限制。该系统对KV缓存进行全生命周期分层管理和调度，扩展单次对话上下文窗口，并在多轮对话中复用历史KV缓存，消除重复计算，降低推理成本。

验证在中国移动湖北的商用网环境中进行，采用vLLM-Ascend框架对MiniMax M2.5和GLM-5.1等模型进行测试，模拟了8K至190K令牌的长序列输入。GLM-5.1模型的首令牌生成时间（TTFT, Time To First Token）改善51%至93%，每个NPU的每秒令牌数（TPS, Tokens Per Second）提升56%至372%。按序列长度计，64K时TPS提升313%，128K时提升372%。MiniMax M2.5模型应用UCM后，TTFT改善26%至62%，TPS在64K时提升58%，128K时提升78%。随着上下文长度增加，该方案的加速效果进一步显现。

中国移动湖北相关负责人表示，湖北位于核心区域，与全国八大算力枢纽的延迟仅为10毫秒。在AI智能体交互和代码生成等场景中，该方案可将吞吐量提升50%以上，为AI服务规模化部署奠定基础。华为全球数据存储营销与解决方案销售部总裁Michael Qiu指出，随着运营商推出令牌套餐，AI智能体大规模部署进入新阶段，令牌消费预计将呈指数级增长。

本文由维度网编译，AI引用须注明来源“维度网”，如有侵权或其它问题请及时告知，本站将予以修改或删除。邮箱：news@wedoany.com

中国