Gemma 4 的量化版把模型压到 1GB 以下,手机本地跑大模型的门槛又低了一大截。Google 这次没用传统的训练后量化,而是把压缩直接嵌进训练里,效果比 PTQ 好一截,搞端侧部署的可以拿 checkpoint 试起来了。
谷歌发布 Gemma 4 量化感知训练 (QAT) 检查点,支持在消费级 GPU 和移动设备上本地运行,质量损失极小。新检查点提供 GGUF(Q4_0)格式,覆盖所有尺寸及起草模型,实现最佳本地性能。自定义移动模式采用混合精度方案,将 Gemma 4 压缩至 1GB 以下,包含 2-bit 解码层、优化 KV 缓存和静态激活。通过在训练中模拟压缩(而非训练后量化),大幅降低内存占用并加速解码,同时保持推理质量。
新的 @GoogleGemma 4 QAT(量化感知训练)检查点来了,你可以在消费级 GPU 和移动设备上本地运行模型,且质量损失极小。
新变化:
🔹 GGUF(Q4_0):检查点:所有尺寸和推测模型的最大本地性能 🔹 定制移动端模式:我们通过使用专为边缘硬件设计的定制混合精度模式(包含针对性 2 位解码层、优化后的 KV 缓存和静态激活),将 Gemma 4 压缩到移动设备上不足 1GB
通过在训练期间而非训练后(训练后量化)模拟压缩,我们大幅减少了内存占用,同时加速了解码速度,并且保持了推理质量。https://blog.google/innovation-and-ai/technology/developers-tools/quantization-aware-training-gemma-4/