Gemma 4 12B：一种统一的、无需编码器的多模态模型

2026-06-04 01:09·17天前·rvz

精选理由

我觉得Gemma 4 12B最大的变化不是参数大小，而是第一次在开源模型里把多模态直接交给LLM主干处理，没有单独的视觉编码器，这意味着本地多模态应用的延迟和内存占用都会大幅下降，对于在笔记本上做Agent的开发者，这是一个必试的版本。

AI 摘要

Gemma 4 12B 是 Google 发布的一款统一架构、无需独立视觉编码器的多模态大语言模型（LLM）。该模型直接处理图像与文本输入，无需传统视觉编码器，简化了多模态推理流程。基于 12B 参数规模，Gemma 4 12B 面向开发者工具生态开放。目前其具体 benchmark 分数、上下文窗口、价格及开源/API 可用性等细节尚未披露。

AI 翻译 · 中文

介绍 Gemma 4 12B：一款统一的无编码器多模态模型

2026 年 6 月 3 日

Gemma 4 12B 旨在将高性能多模态智能直接带到你的笔记本电脑上，融合了移动优先的效率与先进的推理能力。

Olivier Lacombe

产品管理总监，Google DeepMind

Gus Martins

产品经理，Google DeepMind

Listen to article

此内容由 Google AI 生成。生成式 AI 尚处于实验阶段。

[[时长]] 分钟

今天，我们推出 Gemma 4 12B，这是我们的最新模型，旨在将智能体多模态智能直接带到笔记本电脑上。它填补了面向边缘的 E4B 与我们更先进的 26B 混合专家（MoE）模型之间的空白，Gemma 4 12B 在更小的内存占用内封装了强大的能力。它也是我们首款原生支持音频输入的中等规模模型。

得益于开发者社区，Gemma 4 模型现已超过 1.5 亿次下载。从用于物理辅助的可穿戴机械臂，到企业级 AI 安全方案，你们构建了各种应用。我们很期待看到你们用这款最新产品能创造出什么。

以下是 Gemma 4 12B 的独特之处概览：

新颖的统一架构：无需多模态编码器。视觉和音频输入直接流入大语言模型主干。
先进推理：基准测试性能接近我们的 26B 模型，解锁了强大的多步推理和智能体工作流。
笔记本就绪：足够小巧，仅需 16GB VRAM 或统一内存即可在本地运行。
开放易用：基于 Apache 2.0 许可发布，获得整个开发者生态系统的支持。
草稿模型就绪：Gemma 4 12B 配备了多 Token 预测（MTP）草稿模型以降低延迟。

这些功能共同将先进的多模态能力带到了日常硬件上，同时不牺牲速度或推理能力。现在让我们更深入地了解 Gemma 4 12B 是如何实现这一点的。

在本地运行最先进的智能体

Gemma 4 12B 在标准基准测试中的性能接近我们更大的 26B MoE 模型，但总内存占用不到其一半。它足够小巧，可以在配备 16GB RAM 的消费级笔记本电脑上本地运行，从而在你的机器上解锁强大的多模态和智能体体验。

体验一个独特高效的统一架构

Gemma 4 12B 的突出之处在于它对视觉和音频输入的精简处理方式。传统的多模态模型通常依赖单独的编码器来转换图像和音频，然后再将这些表示传递给语言模型。由于这些拆分编码器会增加延迟和内存使用量，我们采用无编码器架构训练了 Gemma 4 12B，以直接集成音频和视觉输入。

以下是 Gemma 4 12B 原生处理多模态输入的方式：

视觉：我们用轻量级嵌入模块替换了 Gemma 4 的视觉编码器，该模块仅包含一次矩阵乘法、位置嵌入和归一化。这使得大语言模型主干能够接管视觉处理。
音频：我们进一步简化了音频处理。完全移除了音频编码器，并将原始音频信号投影到与文本 token 相同的维度空间。

开发者若想了解详细说明，请查阅我们随附的 Gemma 4 12B 开发者指南。

立即开始

亲自尝试：在 LM Studio、Ollama、Google AI Edge Gallery 应用、Google AI Edge Eloquent 应用以及 LiteRT-LM CLI 中点击几下即可进行实验。
下载权重：直接从 Hugging Face 和 Kaggle 下载预训练和指令微调的检查点。
集成与学习：查看开发者文档和快速入门笔记本。
使用你喜爱的开发工具：通过 Hugging Face Transformers、llama.cpp、MLX、SGLang 和 vLLM 实现本地推理管道，或使用 Unsloth 高效微调。
通过 Gemma Skills 解锁智能体开发：为支持开发者利用最新的 Gemma 进展构建智能体，我们发布了官方的 Skills 仓库。这是一个专为帮助智能体使用 Gemma 模型构建而设计的技能库。
按需部署：使用 Google Cloud 在生产环境中启动端点。通过 Gemini Enterprise Agent Platform Model Garden、Cloud Run 和 GKE 按需部署。

发布于：

Google多模态模型发布端侧

Hacker News 热门（buzzing.cc 中文翻译）

精选78