# 400 TPS！实测智谱 GLM-5.1 以10倍速狂飙

- 来源：karminski-牙医 (@karminski3)
- 发布时间：2026-05-22 10:48
- AIHOT 分数：71
- AIHOT 链接：https://aihot.virxact.com/items/cmpgcglvi0e83sljwz65ufxcx
- 原文链接：https://x.com/karminski3/status/2057654726712611232

## AI 摘要

智谱近期推出GLM-5.1-Highspeed模型，实测输出速度达300+ tokens/s，首token延迟约1秒，相较于标准版GLM-5.1的35 tps和9秒延迟，性能提升约10倍。技术上，智谱联合TileRT团队重构了推理链路，通过将整个推理流程编译为常驻GPU的大kernel，大幅减少CPU调度与数据搬运开销，并优化单卡内的计算、IO分配及多卡间任务协作，显著提升GPU利用效率。该模型单次激活40B参数，高性能运行需依托多卡并行，建议现有用户切换使用以获得更实时的生成体验。

## 正文

400 TPS！实测智谱 GLM-5.1 以10倍速狂飙

智谱刚刚发布了 glm-5.1-highspeed！ 赶紧拿脚本测了一下， 输出速度能干到 300 tps+， 首 token 延迟稳定在1s.

这个数据猛到什么程度… 同样的脚本我测了下 glm-5.1 的接口， 输出速度只有 35 tps， 首 token 延迟干到了 9s. 基本是10倍速提升.

使用 glm-5.1 编程或者养龙虾/爱马仕的同学可以直接搞套餐开这个新模型了. 能做到直接吐字不用等.

GLM-5.1 单次激活40B， 按照bf16精度计算， 即使不考虑 kvcache 也要80GB的显存， 那么达到 35 tps， 这就是 80x35= 2.8TB/s 的显存带宽. 而如果拉升到 300 tps， 那就是 80x300=24TB/s 的显存带宽.

如果按照 H100 SXM： 3.35 TB/s 计算， 之前单卡的带宽就能达到了， 现在需要8卡的张量并行才可以（当然张量并行也能提升请求并行度）.

结果官方发布的技术文档更炸裂， 他们跟 TileRT 团队合作， 从底层把推理链路重做， 直接把显卡性能榨干了！

简单说， 传统推理像流水线工厂： CPU 当调度器， 一层层发指令给 GPU， 算完一层把结果写回显存， 再读出来算下一层， 中间还要不停同步. 大量时间其实耗在这些"调度 + 搬运"上， 而不是纯计算.

TileRT 的思路是反着来的： 编译阶段就把整个推理流程编排好， 变成一个常驻 GPU 的大 kernel， 推理启动后基本只 launch 一次， 后面 GPU 自己跑.

单卡里面像计算、IO、通信都拆成更小的 tile 级任务； 中间结果尽量不走大显存， 能在寄存器、共享内存、L2 cache 里直传就直传.

多卡则进行分工， 比如 GPU 0 专门干 Sparse Indexer， GPU 1-7 跑 MLA 注意力主干. （另外还有很多优化细节， 大家可以看官方发布的技术文档）

上面这些全都不用 CPU 再深度参与了， 所以提升了大量的性能.

so， 正在使用 GLM-5.1 的同学抓紧切模型！

#glm51 #glm51highspeed #智谱 #GLM
