# Google Gemma 4凭MTP实现3倍加速，vLLM零延迟提供支持

- 来源：Berryxia.AI (@berryxia)
- 发布时间：2026-05-06 07:34
- AIHOT 分数：75
- AIHOT 标记：精选
- AIHOT 链接：https://aihot.virxact.com/items/cmotb5adq03tgslv78rfybtjo
- 原文链接：https://x.com/berryxia/status/2051807763895136601

## 精选理由

Google的MTP技术让Gemma 4提速3倍，vLLM当天就支持了，做本地Agent和实时应用的开发者现在一条Docker命令就能跑，开源模型性价比优势又拉大一截。

## AI 摘要

Google发布Gemma 4模型，采用创新的MTP drafters技术，实现最高3倍解码速度提升且质量无损。该技术让模型一次预测多个token，突破传统自回归生成的串行瓶颈，极大提升GPU利用率。vLLM项目在官方宣布后立即提供Day-0支持，用户可通过一条Docker命令快速部署。这一进步显著增强本地部署的实时性，使Agent、代码生成等场景受益，进一步放大开源模型在性价比和本地化运行方面的优势。

## 正文

Google 昨天刚官宣 Gemma 4 用 MTP 实现 3 倍加速， vLLM 今天就直接 Day-0 支持，零延迟把这个加速塞到了所有人手里。

一条 Docker 命令就能跑：

🚀 现成镜像 + 完整 recipes ⚡️ 最高 3 倍解码速度 ✅ 质量零损失

vLLM recipes 在这里👉 https://recipes.vllm.ai/Google/gemma-4-26B-A4B-it

### 引用推文

> Berryxia.AI：Gemma 4 现在最高能跑到 3倍速度,而且质量完全不变。 他们没有增加参数、没有换新架构,只是推出了一套 MTP drafters(多 token 预测草稿机),让模型一次预测多个 token,彻底绕过了传统 autoregressive 一个词接一个词的串行瓶颈。 GPU 不再傻等,它开始"预判"了。 这意味着:...