# Google发布Gemma 4草稿专用模型，推理速度提升三倍

- 来源：karminski-牙医 (@karminski3)
- 发布时间：2026-05-06 09:13
- AIHOT 分数：73
- AIHOT 链接：https://aihot.virxact.com/items/cmotdwbkf04hqslv7b2fpwc56
- 原文链接：https://x.com/karminski3/status/2051832734533013575

## AI 摘要

Google发布了Gemma 4系列模型的专用草稿模型，用于推测性解码优化。31B Dense模型搭配草稿模型速度提升3倍，仅增加1G显存开销；Gemma4-26B和Gemma4-E4B分别提升1.5倍和3.1倍速度。新草稿模型如gemma-4-31B-it-assistant体积仅939 MB，专门优化后接受率高，相比之前使用非专用草稿模型（如gemma-4-E2B-it-UD-Q4_K_XL）提速更明显。作者呼吁Qwen尽快推出类似优化模型（如Qwen3.6-27B-assistant），以应对高性能需求。

## 正文

Google 刚刚发布了 Gemma 4系列模型的草稿专用模型！ 31B Dense 搭配草稿模型速度竟然能提升3倍！ 付出的代价仅仅是多花 1G 显存！

另外 Gemma4-26B 也能提升1.5x 速度， Gemma4-E4B 更是能提升3.1x 速度. 我之前给大家做过 Gemma 4 推测性解码的教程， 当时官方还没有专用草稿模型， 所以我给大家演示的是 gemma-4-31B-it-UD-Q4_K_XL 作为主模型， 然后使用 gemma-4-E2B-it-UD-Q4_K_XL 作为草稿模型， 速度可以提升 1.23x， 草稿接受率在62% 左右.

这次直接翻三倍原因很简单， 因为之前用的 gemma-4-E2B-it-UD-Q4_K_XL 即使已经是量化模型了， 大小也有3GB左右， 而这次的 gemma-4-31B-it-assistant 即使是原始精度也只有 939 MB！ 而且是专门为了推测性解码优化的！ 接受率也会高. 所以提速自然就明显了.

而代价也仅仅是显存中再多加载这个模型就可以了（大概1GB显存开销）.

现在压力来到了 Qwen 这边， 建议 Qwen 赶紧推出 Qwen3.6-27B-assistant， 再不推出我的显卡可是要红温了， 我天天cue你们嗷！

#gemma4 #qwen #gemma4assistant #推测性解码 #投机解码