智谱近期推出GLM-5.1-Highspeed模型,实测输出速度达300+ tokens/s,首token延迟约1秒,相较于标准版GLM-5.1的35 tps和9秒延迟,性能提升约10倍。技术上,智谱联合TileRT团队重构了推理链路,通过将整个推理流程编译为常驻GPU的大kernel,大幅减少CPU调度与数据搬运开销,并优化单卡内的计算、IO分配及多卡间任务协作,显著提升GPU利用效率。该模型单次激活40B参数,高性能运行需依托多卡并行,建议现有用户切换使用以获得更实时的生成体验。
400 TPS!实测智谱 GLM-5.1 以10倍速狂飙
智谱刚刚发布了 glm-5.1-highspeed! 赶紧拿脚本测了一下, 输出速度能干到 300 tps+, 首 token 延迟稳定在1s.
这个数据猛到什么程度… 同样的脚本我测了下 glm-5.1 的接口, 输出速度只有 35 tps, 首 token 延迟干到了 9s. 基本是10倍速提升.
使用 glm-5.1 编程或者养龙虾/爱马仕的同学可以直接搞套餐开这个新模型了. 能做到直接吐字不用等.
GLM-5.1 单次激活40B, 按照bf16精度计算, 即使不考虑 kvcache 也要80GB的显存, 那么达到 35 tps, 这就是 80x35= 2.8TB/s 的显存带宽. 而如果拉升到 300 tps, 那就是 80x300=24TB/s 的显存带宽.
如果按照 H100 SXM: 3.35 TB/s 计算, 之前单卡的带宽就能达到了, 现在需要8卡的张量并行才可以(当然张量并行也能提升请求并行度).
结果官方发布的技术文档更炸裂, 他们跟 TileRT 团队合作, 从底层把推理链路重做, 直接把显卡性能榨干了!
简单说, 传统推理像流水线工厂: CPU 当调度器, 一层层发指令给 GPU, 算完一层把结果写回显存, 再读出来算下一层, 中间还要不停同步. 大量时间其实耗在这些"调度 + 搬运"上, 而不是纯计算.