Google的MTP技术让Gemma 4提速3倍,vLLM当天就支持了,做本地Agent和实时应用的开发者现在一条Docker命令就能跑,开源模型性价比优势又拉大一截。
Google发布Gemma 4模型,采用创新的MTP drafters技术,实现最高3倍解码速度提升且质量无损。该技术让模型一次预测多个token,突破传统自回归生成的串行瓶颈,极大提升GPU利用率。vLLM项目在官方宣布后立即提供Day-0支持,用户可通过一条Docker命令快速部署。这一进步显著增强本地部署的实时性,使Agent、代码生成等场景受益,进一步放大开源模型在性价比和本地化运行方面的优势。
Google 昨天刚官宣 Gemma 4 用 MTP 实现 3 倍加速, vLLM 今天就直接 Day-0 支持,零延迟把这个加速塞到了所有人手里。
一条 Docker 命令就能跑:
🚀 现成镜像 + 完整 recipes ⚡️ 最高 3 倍解码速度 ✅ 质量零损失
vLLM recipes 在这里👉 https://recipes.vllm.ai/Google/gemma-4-26B-A4B-it