# Gemma 4借助MTP草稿机实现3倍速推理

- 来源：Berryxia.AI (@berryxia)
- 发布时间：2026-05-06 07:21
- AIHOT 分数：66
- AIHOT 链接：https://aihot.virxact.com/items/cmotb5adq03tjslv7vioxsldi
- 原文链接：https://x.com/berryxia/status/2051804509006156045

## AI 摘要

Google通过为Gemma 4引入MTP drafters（多token预测草稿机），在不增加参数、不改变架构和模型质量的前提下，实现了最高3倍的推理速度提升。该技术让模型能一次预测多个token，突破了传统自回归解码的串行瓶颈，极大提升了GPU利用率。这显著增强了本地部署的实时性，并使Agent、代码生成等场景受益，进一步放大了开源模型在性价比和本地运行方面的优势。

## 正文

Gemma 4 现在最高能跑到 3倍速度，而且质量完全不变。

他们没有增加参数、没有换新架构，只是推出了一套 MTP drafters（多 token 预测草稿机），让模型一次预测多个 token，彻底绕过了传统 autoregressive 一个词接一个词的串行瓶颈。

GPU 不再傻等，它开始"预判"了。

这意味着：
本地部署实时性大幅提升
Agent、代码生成、实时翻译这些场景直接起飞
开源模型在性价比上的优势又被拉大一截

Google 这次玩的不是参数战，只是把硬件利用率直接压榨到极致。

当闭源模型还在拼"谁更聪明"的时候，
开源已经在拼"谁更快、更便宜、还能本地跑"了。

博客在这里👉 https://blog.google/innovation-and-ai/technology/developers-tools/multi-token-prediction-gemma-4/

### 引用推文

> Google for Developers：Gemma 4: Now up to 3x Faster. ⚡ Same quality, way more speed. Our new MTP drafters allow Gemma 4 to predict multiple tokens at once, effectively tripling your o...
