Gemma4有8个模型，选哪个？一文看懂！

Google 刚刚发布了 Gemma4 系列开放权重模型，之前没接触过本地模型的朋友都在问我该用哪个本地部署，来，这篇文让你迅无痛掌握.

首先啊，选带"-it" 后缀的，这个是指令微调版（Instruction Tuned）的意思，代表该模型经过了大规模的人类指令跟随训练和多轮对话对齐，其他的都是基模，是给自己要微调的同学准备的（所以举一反三，你要是想自己微调，就用不带-it的版本）.

A4B 我知道激活参数量是 4B，那么 E4B 是啥意思？简单来讲，这是个专门为了移动端优化的技术--逐层嵌入（Per-Layer Embeddings），它本身并不能省内存，所以 Gemma-4-E2B 并不是它只需要2B参数量的内存，它还是需要原始的5.1B的参数量的内存空间，但是它的计算量只需要大概2B模型的计算量！（可以简单理解为把一部分矩阵运算优化为了查表，然后用内存换计算了，这部分表当然需要吃内存）.

好的，我们的前置知识准备完毕了！那么接下来直接说模型选型：

本地龙虾优先选 Gemma-4-26B-A4B！激活量4B的MoE， prefill速度也相当好，特别适合龙虾这种系统提示词超级臃肿的场景.

写代码/写脚本/要求精确工作选 Gemma-4-31B，选这个肯定就是要最好的效果的，如果实在是跑不动，可以试试5bit量化. 给大家一个参考， Apple M2Ultra 如果运行 8bit，理论速度也就 25token/s.

我要一个本地语音助手！选Gemma-4-E4B，全模态输入，你写代码让它接入有麦克风的摄像头，剩下的场景就靠你的想象了. 并且4B激活即使CPU跑都能跑动.

我只想跑一下试试装在我的树莓派里，选 Gemma-4-E2B，你能体验到极致的本地模型速度，至于质量嘛，会比电子鹦鹉好点，他可以做类似"帮我检查文本里有英文吗"之类的过滤工作，另外它是全模态输入的，也可以尝试语音输入.

#Gemma4 #google #GoogleGemma #本地大模型

karminski-牙医@karminski3 · X

精选72导出 Markdown

2026-04-03 16:39·90天前

在 X 看原推· x.com

精选理由

Gemma 4 一口气出了 8 个变体，本地部署的人最怕选错模型白折腾，这篇把选型逻辑拆得明明白白，从龙虾助手到树莓派都有对应方案，抄作业就行。

AI 摘要

Google发布的Gemma4系列开放权重模型包含多个版本，选型需结合场景。带“-it”后缀为指令微调版，开箱即用；不带后缀为基座模型，供自行微调。其中，A4B指激活参数量为4B，E4B则采用逐层嵌入技术，以内存换取计算量，优化移动端性能。选型建议：综合性能与速度选26B-A4B；追求最佳代码或任务效果选31B；开发本地全模态应用选E4B；资源受限设备体验可选E2B，但输出质量有限。

http://x.com/i/article/2039985553492598784

Gemma4有8个模型，选哪个？一文看懂！

Google 刚刚发布了 Gemma4 系列开放权重模型，之前没接触过本地模型的朋友都在问我该用哪个本地部署，来，这篇文让你迅无痛掌握.

Gemma4有8个模型， 选哪个？ 一文看懂！

Gemma4有8个模型， 选哪个？ 一文看懂！

Gemma4有8个模型，选哪个？一文看懂！

Gemma4有8个模型，选哪个？一文看懂！