Gemma 4 12B:一种统一的、无需编码器的多模态模型
我觉得Gemma 4 12B最大的变化不是参数大小,而是第一次在开源模型里把多模态直接交给LLM主干处理,没有单独的视觉编码器,这意味着本地多模态应用的延迟和内存占用都会大幅下降,对于在笔记本上做Agent的开发者,这是一个必试的版本。
Gemma 4 12B 是 Google 发布的一款统一架构、无需独立视觉编码器的多模态大语言模型(LLM)。该模型直接处理图像与文本输入,无需传统视觉编码器,简化了多模态推理流程。基于 12B 参数规模,Gemma 4 12B 面向开发者工具生态开放。目前其具体 benchmark 分数、上下文窗口、价格及开源/API 可用性等细节尚未披露。
介绍 Gemma 4 12B:一款统一的无编码器多模态模型
2026 年 6 月 3 日
Gemma 4 12B 旨在将高性能多模态智能直接带到你的笔记本电脑上,融合了移动优先的效率与先进的推理能力。
今天,我们推出 Gemma 4 12B,这是我们的最新模型,旨在将智能体多模态智能直接带到笔记本电脑上。它填补了面向边缘的 E4B 与我们更先进的 26B 混合专家(MoE)模型之间的空白,Gemma 4 12B 在更小的内存占用内封装了强大的能力。它也是我们首款原生支持音频输入的中等规模模型。
得益于开发者社区,Gemma 4 模型现已超过 1.5 亿次下载。从用于物理辅助的可穿戴机械臂,到企业级 AI 安全方案,你们构建了各种应用。我们很期待看到你们用这款最新产品能创造出什么。
以下是 Gemma 4 12B 的独特之处概览:
- 新颖的统一架构:无需多模态编码器。视觉和音频输入直接流入大语言模型主干。
- 先进推理:基准测试性能接近我们的 26B 模型,解锁了强大的多步推理和智能体工作流。
- 笔记本就绪:足够小巧,仅需 16GB VRAM 或统一内存即可在本地运行。
- 开放易用:基于 Apache 2.0 许可发布,获得整个开发者生态系统的支持。
- 草稿模型就绪:Gemma 4 12B 配备了多 Token 预测(MTP)草稿模型以降低延迟。
这些功能共同将先进的多模态能力带到了日常硬件上,同时不牺牲速度或推理能力。现在让我们更深入地了解 Gemma 4 12B 是如何实现这一点的。
在本地运行最先进的智能体
Gemma 4 12B 在标准基准测试中的性能接近我们更大的 26B MoE 模型,但总内存占用不到其一半。它足够小巧,可以在配备 16GB RAM 的消费级笔记本电脑上本地运行,从而在你的机器上解锁强大的多模态和智能体体验。
体验一个独特高效的统一架构
Gemma 4 12B 的突出之处在于它对视觉和音频输入的精简处理方式。传统的多模态模型通常依赖单独的编码器来转换图像和音频,然后再将这些表示传递给语言模型。由于这些拆分编码器会增加延迟和内存使用量,我们采用无编码器架构训练了 Gemma 4 12B,以直接集成音频和视觉输入。
以下是 Gemma 4 12B 原生处理多模态输入的方式:
- 视觉:我们用轻量级嵌入模块替换了 Gemma 4 的视觉编码器,该模块仅包含一次矩阵乘法、位置嵌入和归一化。这使得大语言模型主干能够接管视觉处理。
- 音频:我们进一步简化了音频处理。完全移除了音频编码器,并将原始音频信号投影到与文本 token 相同的维度空间。
开发者若想了解详细说明,请查阅我们随附的 Gemma 4 12B 开发者指南。
立即开始
- 亲自尝试:在 LM Studio、Ollama、Google AI Edge Gallery 应用、Google AI Edge Eloquent 应用以及 LiteRT-LM CLI 中点击几下即可进行实验。
- 下载权重:直接从 Hugging Face 和 Kaggle 下载预训练和指令微调的检查点。
- 集成与学习:查看开发者文档和快速入门笔记本。
- 使用你喜爱的开发工具:通过 Hugging Face Transformers、llama.cpp、MLX、SGLang 和 vLLM 实现本地推理管道,或使用 Unsloth 高效微调。
- 通过 Gemma Skills 解锁智能体开发:为支持开发者利用最新的 Gemma 进展构建智能体,我们发布了官方的 Skills 仓库。这是一个专为帮助智能体使用 Gemma 模型构建而设计的技能库。
- 按需部署:使用 Google Cloud 在生产环境中启动端点。通过 Gemini Enterprise Agent Platform Model Garden、Cloud Run 和 GKE 按需部署。