karminski-牙医@karminski3

2026-06-30 14:32·2天前

AI 摘要

SGLang的DSpark在PR中放出实测数据，可预测3个token（数学类3.37，日常对话3，代码3.52）。1K长度prompt下加速比达1.81倍，8卡B200速度297 token/s（无DSpark为164 token/s）。单并发提升最高，超过8并发仅1.2‑1.3倍。TPOT仅2.9‑5.2ms，延迟可忽略。该PR（#29538）尚未合并。

SGLang 的 DSpark 实测数据在PR里放出了，几个测试场景基本都能达到预测3个token，其中数学类prompt是3.37个，日常对话是3个，代码是3.52个（果然代码是废token比较多的）.

最亮眼的是加速比了，在1K长度prompt下加速比来到了1.81倍. 测试使用的是8卡B200，速度来到了 297 token/s. 而不使用DSpark 则是 164 token/s.

另外作者还测试了不同并发情况下的加速比，目前来看单并发提升是最高的，而超过8并发则只有1.2-1.3倍的提速了，主要还是把GPU打满了.

另外比较震惊的数据时 DSpark 的 TPOT （每个输出 Token 的耗时）只有2.9-5.2ms，说明了这个DSpark内置的神经网络层运行得特别快. DSpark带来的延迟基本可以忽略不计了.

注意这个PR还没合并，如果想尝试可以单独Fork这个PR29538.

开源/仓库推理部署/工程

在 X 查看原推导出 Markdown

karminski-牙医@karminski3 · X

60导出 Markdown

2026-06-30 14:32·2天前

在 X 看原推· x.com

AI 摘要

最亮眼的是加速比了，在1K长度prompt下加速比来到了1.81倍. 测试使用的是8卡B200，速度来到了 297 token/s. 而不使用DSpark 则是 164 token/s.

另外作者还测试了不同并发情况下的加速比，目前来看单并发提升是最高的，而超过8并发则只有1.2-1.3倍的提速了，主要还是把GPU打满了.

注意这个PR还没合并，如果想尝试可以单独Fork这个PR29538.