karminski-牙医@karminski3

2026-05-22 10:48·42天前

AI 摘要

智谱近期推出GLM-5.1-Highspeed模型，实测输出速度达300+ tokens/s，首token延迟约1秒，相较于标准版GLM-5.1的35 tps和9秒延迟，性能提升约10倍。技术上，智谱联合TileRT团队重构了推理链路，通过将整个推理流程编译为常驻GPU的大kernel，大幅减少CPU调度与数据搬运开销，并优化单卡内的计算、IO分配及多卡间任务协作，显著提升GPU利用效率。该模型单次激活40B参数，高性能运行需依托多卡并行，建议现有用户切换使用以获得更实时的生成体验。

400 TPS！实测智谱 GLM-5.1 以10倍速狂飙

智谱刚刚发布了 glm-5.1-highspeed！赶紧拿脚本测了一下，输出速度能干到 300 tps+，首 token 延迟稳定在1s.

这个数据猛到什么程度… 同样的脚本我测了下 glm-5.1 的接口，输出速度只有 35 tps，首 token 延迟干到了 9s. 基本是10倍速提升.

使用 glm-5.1 编程或者养龙虾/爱马仕的同学可以直接搞套餐开这个新模型了. 能做到直接吐字不用等.

GLM-5.1 单次激活40B，按照bf16精度计算，即使不考虑 kvcache 也要80GB的显存，那么达到 35 tps，这就是 80x35= 2.8TB/s 的显存带宽. 而如果拉升到 300 tps，那就是 80x300=24TB/s 的显存带宽.

如果按照 H100 SXM： 3.35 TB/s 计算，之前单卡的带宽就能达到了，现在需要8卡的张量并行才可以（当然张量并行也能提升请求并行度）.

结果官方发布的技术文档更炸裂，他们跟 TileRT 团队合作，从底层把推理链路重做，直接把显卡性能榨干了！

简单说，传统推理像流水线工厂： CPU 当调度器，一层层发指令给 GPU，算完一层把结果写回显存，再读出来算下一层，中间还要不停同步. 大量时间其实耗在这些"调度 + 搬运"上，而不是纯计算.

TileRT 的思路是反着来的：编译阶段就把整个推理流程编排好，变成一个常驻 GPU 的大 kernel，推理启动后基本只 launch 一次，后面 GPU 自己跑.

单卡里面像计算、IO、通信都拆成更小的 tile 级任务；中间结果尽量不走大显存，能在寄存器、共享内存、L2 cache 里直传就直传.

多卡则进行分工，比如 GPU 0 专门干 Sparse Indexer， GPU 1-7 跑 MLA 注意力主干. （另外还有很多优化细节，大家可以看官方发布的技术文档）

上面这些全都不用 CPU 再深度参与了，所以提升了大量的性能.