Berryxia.AI@berryxia

精选79

2026-05-14 10:24·47天前

精选理由

这波MTP投机解码把消费级显卡的推理速度榨出新高度，27B模型单GPU跑140 tokens/s，精度毫无损失。玩llama.cpp或本地Agent的人现在就该试一下。

AI 摘要

UnslothAI创始人Daniel Han发布了实验性的Qwen3.6 MTP GGUF模型，显著提升了推理速度。其中，27B模型在单GPU上达到每秒140个token，35B-A3B版本更是高达每秒220个token，相比原版GGUF速度提升超过1.4倍且精度无损。关键优化在于将draft tokens设置为2，这是性能与接受率的最佳平衡点。这项MTP投机解码技术极大提升了消费级显卡运行大模型的效率，推动了本地AI的性能边界。

我靠，肉眼都跟不上这个速度了！

Daniel Han，UnslothAI创始人，YC S24，之前在NVIDIA做ML，刚刚把Qwen3.6的实验MTP GGUF放出来了。

27B模型单GPU直接跑到140 tokens/s。 35B-A3B版本更猛，冲到220 tokens/s。

比原版GGUF快超过1.4倍，精度零损失。

他们测了半天，发现draft tokens设成2就是甜点，再往上接受率暴跌，实际速度反而掉下去。

我看完那张benchmark曲线图，最大的感受是，本地大模型的性能天花板又被狠狠顶高了一截。

以前总觉得30B+模型本地跑太慢，现在MTP投机解码直接把消费级显卡的潜力榨干了。

如果你在玩llama.cpp、跑本地Agent或者日常coding，这波更新必须马上试。

本地AI越来越不像"妥协版"了。

Daniel HanWe released experimental MTP Qwen3.6 Unsloth GGUFs! Qwen3.6 27B MTP now runs at 140 tokens/s. Qwen3.6 35B-A3B MTP gets 220 tokens/s generation on a single GPU. ...

推理教程/实践部署/工程

在 X 查看原推

Berryxia.AI@berryxia · X

精选79导出 Markdown