这波MTP投机解码把消费级显卡的推理速度榨出新高度,27B模型单GPU跑140 tokens/s,精度毫无损失。玩llama.cpp或本地Agent的人现在就该试一下。
UnslothAI创始人Daniel Han发布了实验性的Qwen3.6 MTP GGUF模型,显著提升了推理速度。其中,27B模型在单GPU上达到每秒140个token,35B-A3B版本更是高达每秒220个token,相比原版GGUF速度提升超过1.4倍且精度无损。关键优化在于将draft tokens设置为2,这是性能与接受率的最佳平衡点。这项MTP投机解码技术极大提升了消费级显卡运行大模型的效率,推动了本地AI的性能边界。
我靠,肉眼都跟不上这个速度了!
Daniel Han,UnslothAI创始人,YC S24,之前在NVIDIA做ML,刚刚把Qwen3.6的实验MTP GGUF放出来了。
27B模型单GPU直接跑到140 tokens/s。 35B-A3B版本更猛,冲到220 tokens/s。
比原版GGUF快超过1.4倍,精度零损失。
他们测了半天,发现draft tokens设成2就是甜点,再往上接受率暴跌,实际速度反而掉下去。
我看完那张benchmark曲线图,最大的感受是,本地大模型的性能天花板又被狠狠顶高了一截。
以前总觉得30B+模型本地跑太慢,现在MTP投机解码直接把消费级显卡的潜力榨干了。
如果你在玩llama.cpp、跑本地Agent或者日常coding,这波更新必须马上试。