# Google 发布 Gemma 4 12B：无独立视觉编码器的统一多模态架构

- 来源：AYi (@AYi_AInotes)
- 发布时间：2026-06-04 01:28
- AIHOT 分数：65
- AIHOT 链接：https://aihot.virxact.com/items/cmpye1qqf048yslaxyjy6w31o
- 原文链接：https://x.com/AYi_AInotes/status/2062224992910115180

## AI 摘要

Google 推出 Gemma 4 12B（Apache 2.0），采用无独立视觉编码器的统一多模态架构。仅用 35M 参数的轻量嵌入器，将图像切为 48×48 块、音频（16kHz 原始波形）切为 40ms 帧，直接作为 token 输入 Transformer。M4 Max 上 4-bit 量化识图延迟 1.2-1.5 秒，官方称 16GB 内存可用，但社区指出高分辨率多图会压线。该设计暗示：当基座模型足够大，专用子模块不再是必需，未来一个微调好的统一模型可能取代传统拼装 Whisper、LLaVa 等多模态 pipeline。

## 正文

150M 的活，35M 干了，
Google 新出的 Gemma 4 12B，把多模态里那个最重的零件，视觉编码器，
从 150M-550M 直接压到 35M了，

过去做多模态，套路是固定的，
图片先扔给一个专门的视觉编码器翻译成模型能懂的语言，
再交给大模型理解，就像配了个翻译官。

这个翻译官，传统 ViT 编码器要 150M 到 550M 参数。

Gemma 4 12B 直接把翻译官辞了，
只留一个 35M 的轻量嵌入器，把图片切成 48×48 的小块，当成 token 直接扔进去，
让 Transformer 自己学着看世界，

音频也一样，16kHz 原始波形切成 40ms 一帧，直接喂进同一个模型。

也就是说，图片、声音、文字，第一次被当成同一种东西。

为什么敢这么干，

因为它赌的是一件事，
当基座模型大到某个临界点，那些专门的子模块，就不再是必需品了。

这个剧本你可能见过，
当年 ViT 取代 CNN，也是同一个套路，
规模够大的时候，与其手工设计一堆专用结构，不如把活儿直接交给一个统一的大模型自己学。

现在这套逻辑，正从视觉单模态，蔓延到整个多模态架构。

而且 12B 这个尺寸不是随便选的，
刚好大到能扔掉编码器，又刚好小到能塞进 16GB 的笔记本里，
据 aaryan_kakad 在 M4 Max 上的实测，4-bit 量化下识图延迟 1.2 到 1.5 秒，
官方说 16GB 够用，社区的说法更实在，能跑，但高分辨率多图会压线。

但这条新闻真正值得琢磨的，不是它能跑在你的笔记本上，
是它意味着什么，

过去做一个多模态应用，你得拼装 Whisper 转录、LLaVa 看图、再接一个 LLM，
像攒一台机器，每个零件都得你自己调好接口、对齐、调试。

如果 encoder-free 这条路走通，
未来一个微调好的统一模型，可能就把这一整条流水线吃掉了。

那一刻贬值的，不是某个工具，
是你过去攒那台机器、拼那条 pipeline 攒下的全部手艺。

模型不是在帮你省一个零件，
是在悄悄重写哪种手艺还值钱。

### 引用推文

> Google Gemma：Meet Gemma 4 12B! A unified, encoder-free multimodal model designed to bring high-performance intelligence directly to your laptop, and released under an Apache...
