# UnslothAI发布Qwen3.6 MTP GGUF模型，实现推理速度大幅提升

- 来源：Berryxia.AI (@berryxia)
- 发布时间：2026-05-14 10:24
- AIHOT 分数：79
- AIHOT 标记：精选
- AIHOT 链接：https://aihot.virxact.com/items/cmp4w6kak09a6sljxu0od6wk4
- 原文链接：https://x.com/berryxia/status/2054749585520890314

## 精选理由

这波MTP投机解码把消费级显卡的推理速度榨出新高度，27B模型单GPU跑140 tokens/s，精度毫无损失。玩llama.cpp或本地Agent的人现在就该试一下。

## AI 摘要

UnslothAI创始人Daniel Han发布了实验性的Qwen3.6 MTP GGUF模型，显著提升了推理速度。其中，27B模型在单GPU上达到每秒140个token，35B-A3B版本更是高达每秒220个token，相比原版GGUF速度提升超过1.4倍且精度无损。关键优化在于将draft tokens设置为2，这是性能与接受率的最佳平衡点。这项MTP投机解码技术极大提升了消费级显卡运行大模型的效率，推动了本地AI的性能边界。

## 正文

我靠，肉眼都跟不上这个速度了！

Daniel Han，UnslothAI创始人，YC S24，之前在NVIDIA做ML，刚刚把Qwen3.6的实验MTP GGUF放出来了。

27B模型单GPU直接跑到140 tokens/s。
35B-A3B版本更猛，冲到220 tokens/s。

比原版GGUF快超过1.4倍，精度零损失。

他们测了半天，发现draft tokens设成2就是甜点，再往上接受率暴跌，实际速度反而掉下去。

我看完那张benchmark曲线图，最大的感受是，本地大模型的性能天花板又被狠狠顶高了一截。

以前总觉得30B+模型本地跑太慢，现在MTP投机解码直接把消费级显卡的潜力榨干了。

如果你在玩llama.cpp、跑本地Agent或者日常coding，这波更新必须马上试。

本地AI越来越不像"妥协版"了。

### 引用推文

> Daniel Han：We released experimental MTP Qwen3.6 Unsloth GGUFs! Qwen3.6 27B MTP now runs at 140 tokens/s. Qwen3.6 35B-A3B MTP gets 220 tokens/s generation on a single GPU. ...
