# Google 发布 Gemma 4 12B 开源模型

- 来源：小互 (@xiaohu)
- 发布时间：2026-06-04 08:22
- AIHOT 分数：71
- AIHOT 链接：https://aihot.virxact.com/items/cmpyrrgrw02q1sli3hdv6qymn
- 原文链接：https://x.com/xiaohu/status/2062329020273000882

## AI 摘要

Google 发布 Gemma 4 12B 开源模型，采用无编码器 Unified 架构，可直接处理文本、图像、音频、视频，无需独立编码器。16GB 显存可运行，4-bit 量化后低至 8GB。支持 256K token 上下文、140+ 语言，内置 Thinking 模式和 Function Calling。

## 正文

Google 发布 Gemma 4 12B 开源模型

16GB 笔记本跑全模态 AI

Gemma 4 12B 采用了一种叫"Unified"的无编码器架构，让文字、图像、音频、视频四种输入直接进入同一个 Transformer 主干网络处理。

模型可直接处理原始的图像和声音

用一个类比讲清楚

传统多模态模型处理图片和音频的方式，类似于一个只会中文的老板配了两个翻译：一个英文翻译（视觉编码器），一个日文翻译（音频编码器）。

每次有英文或日文材料进来，必须先让翻译转成中文，老板才能看懂。翻译本身占工位（显存），翻译过程要排队等（延迟），而且老板拿到的是翻译加工过的版本，不是原文。

Gemma 4 12B 做的事情是：把两个翻译都裁了，让老板自己学会了直接看英文和日文。

几个关键数字：

16GB 显存或统一内存能跑，4-bit 量化低到 8GB，目标就是在普通笔记本上本地运行

256K Token 上下文窗口，支持 140+ 种语言

内置 Thinking 模式（逐步推理）和原生 Function Calling
