# 华为昇腾 0 Day 支持智谱 GLM-5.2 模型，提供全面推理优化

- 来源：IT之家（RSS）
- 发布时间：2026-06-18 11:06
- AIHOT 分数：47
- AIHOT 链接：https://aihot.virxact.com/items/cmqixf323057zsl5wbulrw2jg
- 原文链接：https://www.ithome.com/0/965/829.htm

## AI 摘要

昇腾 A3 系列已全面支持 GLM-5.2 单双机及大 EP 推理部署，围绕 MOE 大融合算子、通信计算融合、注意力前处理与多 Token 预测、高并发调度与预填充延迟、智能缓存与索引优化、PD 分离与 Prefix Cache 等关键技术进行高效推理优化。GLM-5.2 在 Code Arena 全球盲测中获可用模型第一；专为长程任务设计，支持 1M 上下文，表现介于 Claude Opus 4.7 与 4.8 之间，为排名最高的开源模型。该模型已在 Day 0 完成与华为昇腾、平头哥、摩尔线程等国产算力平台的推理适配，单位 token FLOPs 降至 2.9 倍。

## 正文

IT之家 6 月 18 日消息，“昇腾 AI 开发者”公众号 6 月 17 日宣布，昇腾 0 Day 支持 GLM-5.2，为编程与长程任务提供全面推理优化。

据官方介绍，目前昇腾 A3 系列产品已经支持 GLM5.2 的单双机以及大 EP 推理部署。针对 GLM5.2 模型的结构特点，昇腾围绕以下几个关键技术开展了高效推理优化：

MOE 大融合算子：将专家路由、加权计算与结果归约融合为统一算子，消除中间张量冗余读写，显著提升计算效率。

通信与计算融合：通过将 AllReduce 优化为 ReduceScatter 与 AllGather 通信原语，并与矩阵计算形成紧耦合流水线，实现通信延迟的有效隐藏。

注意力前处理与多 Token 预测优化：采用注意力前处理融合算子，结合多 Token 预测（MTP）机制的加速，提升单步生成效率。

高并发调度与预填充延迟机制：在高并发混合负载场景下引入预填充延迟调度，平滑计算峰值，降低 Prefill 阶段对 Decode 阶段的资源抢占。

智能缓存与索引优化：结合 IndexCache 技术缓存高频专家路径与静态路由表，并采用 Chunked Prefill、稀疏索引检索等方法，优化长上下文推理性能。

PD 分离与 Prefix Cache：通过 Prefill 与 Decode 阶段分离及前缀缓存技术，压缩解码时延抖动，提升在线服务吞吐稳定性。

IT之家注意到，智谱 6 月 17 日宣布上线并开源 GLM-5.2。在全球百万用户参与盲测的前端开发评估系统 Code Arena 上，GLM-5.2 取得全球可用模型第一的表现。

官方表示，GLM-5.2 专为长程任务能力而生，特色包括：

Solid 1M 上下文：稳定支撑长程任务，多个长程任务基准表明 GLM-5.2 的表现介于 Claude Opus 4.7 与 4.8 之间，是排名最高的开源模型

更强体感，更实用的 Coding 能力：在主流编程基准上，GLM-5.2 保持开源 SOTA，与 Claude Opus 4.8 处于可比区间

极致 Infra 优化，Day 0 运行在国产算力平台：在 1M 上下文长度下，将单位 token 的 FLOPs 降低至 2.9 倍；已在 Day 0 完成与华为昇腾、平头哥、摩尔线程、寒武纪、昆仑芯、沐曦、海光、壁仞等国产算力平台的推理适配；预计下半年昇腾 950 超节点上市后，也将成为 GLM-5.2 强劲的算力底座
