GLM-5.2 自带 MTP(推测性解码)头因采用 DSA(动态稀疏注意力),导致 vLLM、llama.cpp、mlx 等推理引擎难以支持。原始 bf16 精度需 1.5TB,4bit 量化仅 430GB。社区作者 dnhkng 制作了 GLM-5.2-AWQ-INT4-FP8-MTP-delta 魔改版:底座用 INT4(Marlin 算子)+ MTP 用 FP8,使 vLLM 支持 MTP,速度从 2 token/s 提升至 43.39 token/s(绑定 NUMA+MTP-3)。SGLang 因支持混合精度可直接使用 GLM-5.2-W4AFP8;llama.cpp 和 mlx 用户仍需等待社区适配。
本地用vLLM部署GLM-5.2的速度终于上来了!
好消息终于轮到本地部署 GLM-5.2 了! 大家都知道 GLM-5.2 这次是自带了MTP头的, 可以进行推测性解码.
但是, 这个只适用于bf16原始精度的GLM-5.2, 而这玩意原始精度要到1.5TB, 本地跑的很少有富到这个程度的, 所以大家都用各种量化版本, 毕竟4bit量化就只要430GB了.
问题这就来了, 由于 GLM-5.2 的 MTP 采用了非常特殊的 DSA (动态稀疏注意力), 导致目前几个推理引擎 (llama.cpp, vLLM, mlx) 都无法支持.
其中 llama.cpp, mlx 是完全没办法开 MTP, vLLM 只支持FP8精度的.
而SGLang 没事哈, SGLang 架构比较屌上来就支持同一个计算流使用混合精度. 所以直接用 GLM-5.2-W4AFP8 就行.
所以回到这几个不支持的推理引擎, 大部分的量化版本 GLM-5.2 开了 MTP 反而会掉速度. 甚至有的量化版本直接把MTP部分给砍了(mlx).