维度网讯,华为与中国移动湖北合作,在中国通信行业首次完成AI推理加速解决方案(AI Inference Acceleration Solution)的商用网验证。该成果于6月24日至26日在上海新国际博览中心(SNIEC)N1展厅举办的2026年世界移动通信大会上海展(MWC上海2026)上发布。

随着AI应用向智能体(agent)模式演进,代码生成和多轮对话等需要处理长上下文的场景日益增多。但片上内存和DRAM容量有限,导致KV缓存(键值缓存)命中率降低,影响推理性能。
华为以OceanStor A800存储、昇腾A3 SuperPOD(Ascend A3 SuperPoD)和2025年推出的统一缓存管理器(UCM, Unified Cache Manager)为核心构建方案。UCM利用外部高性能存储,实现PB级KV缓存,突破片上内存和DRAM容量限制。该系统对KV缓存进行全生命周期分层管理和调度,扩展单次对话上下文窗口,并在多轮对话中复用历史KV缓存,消除重复计算,降低推理成本。
验证在中国移动湖北的商用网环境中进行,采用vLLM-Ascend框架对MiniMax M2.5和GLM-5.1等模型进行测试,模拟了8K至190K令牌的长序列输入。GLM-5.1模型的首令牌生成时间(TTFT, Time To First Token)改善51%至93%,每个NPU的每秒令牌数(TPS, Tokens Per Second)提升56%至372%。按序列长度计,64K时TPS提升313%,128K时提升372%。MiniMax M2.5模型应用UCM后,TTFT改善26%至62%,TPS在64K时提升58%,128K时提升78%。随着上下文长度增加,该方案的加速效果进一步显现。
中国移动湖北相关负责人表示,湖北位于核心区域,与全国八大算力枢纽的延迟仅为10毫秒。在AI智能体交互和代码生成等场景中,该方案可将吞吐量提升50%以上,为AI服务规模化部署奠定基础。华为全球数据存储营销与解决方案销售部总裁Michael Qiu指出,随着运营商推出令牌套餐,AI智能体大规模部署进入新阶段,令牌消费预计将呈指数级增长。
本文由维度网编译,AI引用须注明来源“维度网”,如有侵权或其它问题请及时告知,本站将予以修改或删除。邮箱:news@wedoany.com









