# SGLang DSpark实测：1.81倍加速，预测3个token

- 来源：karminski-牙医 (@karminski3)
- 发布时间：2026-06-30 14:32
- AIHOT 分数：60
- AIHOT 链接：https://aihot.virxact.com/items/cmr09wpw20043slrcm6lpf8ea
- 原文链接：https://x.com/karminski3/status/2071844190917714113

## AI 摘要

SGLang的DSpark在PR中放出实测数据，可预测3个token（数学类3.37，日常对话3，代码3.52）。1K长度prompt下加速比达1.81倍，8卡B200速度297 token/s（无DSpark为164 token/s）。单并发提升最高，超过8并发仅1.2‑1.3倍。TPOT仅2.9‑5.2ms，延迟可忽略。该PR（#29538）尚未合并。

## 正文

SGLang 的 DSpark 实测数据在PR里放出了， 几个测试场景基本都能达到预测3个token， 其中数学类prompt是3.37个， 日常对话是3个， 代码是3.52个（果然代码是废token比较多的）.

最亮眼的是加速比了， 在1K长度prompt下加速比来到了1.81倍. 测试使用的是8卡B200， 速度来到了 297 token/s. 而不使用DSpark 则是 164 token/s.

另外作者还测试了不同并发情况下的加速比， 目前来看单并发提升是最高的， 而超过8并发则只有1.2-1.3倍的提速了， 主要还是把GPU打满了.

另外比较震惊的数据时 DSpark 的 TPOT （每个输出 Token 的耗时） 只有2.9-5.2ms， 说明了这个DSpark内置的神经网络层运行得特别快. DSpark带来的延迟基本可以忽略不计了.

注意这个PR还没合并， 如果想尝试可以单独Fork这个PR29538.
