# 华为与湖北移动完成全国运营商首个AI推理加速方案现网测试

- 来源：IT之家（RSS）
- 发布时间：2026-06-26 06:59
- AIHOT 分数：49
- AIHOT 链接：https://aihot.virxact.com/items/cmqu5yiia01lfsl80vwuqvuv6
- 原文链接：https://www.ithome.com/0/968/730.htm

## AI 摘要

华为与湖北移动基于OceanStor A800存储与昇腾A3超节点架构，搭载UCM（推理记忆数据管理）技术，完成全国运营商首个AI推理加速方案现网测试。针对MiniMax M2.5、GLM-5.1等模型，在8K至190K长序列场景下，Token吞吐率最高提升372%。其中MiniMax M2.5下首Token延迟（TTFT）优化26%~62%，单NPU卡TPS在64K序列提升58%、128K提升78%；GLM-5.1下TTFT优化51%~93%，TPS提升56%~372%。

## 正文

IT之家 6 月 26 日消息，6 月 24 日，在 2026 MWC 上海展期间，华为与中国移动通信集团湖北有限公司（IT之家注：以下简称“湖北移动”）联合宣布，双方已成功完成全国运营商首个 AI 推理加速解决方案现网测试。

据介绍，该测试基于华为 OceanStor A800 存储与昇腾 A3 超节点架构，搭载 UCM (Unified Cache Manager，推理记忆数据管理)，在长序列 AI 推理场景下，实现了 Token 吞吐率最高可提升 372% 的突破性成果。

文章称，随着 AI 应用加速向 Agent（智能体）形态演进，长上下文序列（如代码生成、多轮对话）已成为典型场景，但传统算力卡高带宽内存容量有限，严重制约了 KV Cache 的命中率。华为在 2025 年底重磅推出了 UCM 推理记忆数据管理技术，打破高带宽内存和 DRAM 的容量限制，通过外置存储提供 PB 级的 KV Cache，并对 KV Cache 进行全生命周期的分层管理与调度，不仅在单次对话时大幅扩展上下文窗口，还能在多轮对话中复用历史 KV Cache，避免重复计算。

本次测试在湖北移动现网环境中部署 vLLM-Ascend 框架，针对 MiniMax M2.5、GLM-5.1 等主流大模型，模拟了 8K 至 190K 长序列输入场景。测试结论如下：

MiniMax M2.5 模型场景下：启用 UCM 后，首 Token 延迟（TTFT）优化 26%~62%，单 NPU 卡 Token 输出效率（TPS）有大幅提升。从不同序列长度分别来看，64K 的序列长度下 TPS 提升 58%，在 128K 序列环境下，TPS 提升 78%。

GLM-5.1 模型场景下：TTFT 优化幅度达 51%~93%，TPS 提升 56%~372%。其中在 64K 序列长度下，TPS 提升 313%，在 128K 序列环境下，TPS 提升 372%。

华为表示，测试表明，随着上下文长度增加，AI 推理加速方案优势持续放大，有效解决了长序列推理中的 KV Cache 容量瓶颈。
