谷歌发布 Gemma 4 QAT 检查点，支持消费级 GPU 和移动设备本地运行

Google AI Developers@googleaidevs

精选72

2026-06-06 00:57·15天前

精选理由

Gemma 4 的量化版把模型压到 1GB 以下，手机本地跑大模型的门槛又低了一大截。Google 这次没用传统的训练后量化，而是把压缩直接嵌进训练里，效果比 PTQ 好一截，搞端侧部署的可以拿 checkpoint 试起来了。

AI 摘要

谷歌发布 Gemma 4 量化感知训练 (QAT) 检查点，支持在消费级 GPU 和移动设备上本地运行，质量损失极小。新检查点提供 GGUF（Q4_0）格式，覆盖所有尺寸及起草模型，实现最佳本地性能。自定义移动模式采用混合精度方案，将 Gemma 4 压缩至 1GB 以下，包含 2-bit 解码层、优化 KV 缓存和静态激活。通过在训练中模拟压缩（而非训练后量化），大幅降低内存占用并加速解码，同时保持推理质量。

AI 翻译 · 中文

新的 @GoogleGemma 4 QAT（量化感知训练）检查点来了，你可以在消费级 GPU 和移动设备上本地运行模型，且质量损失极小。

新变化：

🔹 GGUF（Q4_0）：检查点：所有尺寸和推测模型的最大本地性能 🔹 定制移动端模式：我们通过使用专为边缘硬件设计的定制混合精度模式（包含针对性 2 位解码层、优化后的 KV 缓存和静态激活），将 Gemma 4 压缩到移动设备上不足 1GB

通过在训练期间而非训练后（训练后量化）模拟压缩，我们大幅减少了内存占用，同时加速了解码速度，并且保持了推理质量。https://blog.google/innovation-and-ai/technology/developers-tools/quantization-aware-training-gemma-4/

Google开源/仓库模型发布端侧

在 X 查看原推

Google AI Developers@googleaidevs · X