Google 推出 Gemma 4 12B(Apache 2.0),采用无独立视觉编码器的统一多模态架构。仅用 35M 参数的轻量嵌入器,将图像切为 48×48 块、音频(16kHz 原始波形)切为 40ms 帧,直接作为 token 输入 Transformer。M4 Max 上 4-bit 量化识图延迟 1.2-1.5 秒,官方称 16GB 内存可用,但社区指出高分辨率多图会压线。该设计暗示:当基座模型足够大,专用子模块不再是必需,未来一个微调好的统一模型可能取代传统拼装 Whisper、LLaVa 等多模态 pipeline。
150M 的活,35M 干了, Google 新出的 Gemma 4 12B,把多模态里那个最重的零件,视觉编码器, 从 150M-550M 直接压到 35M了,
过去做多模态,套路是固定的, 图片先扔给一个专门的视觉编码器翻译成模型能懂的语言, 再交给大模型理解,就像配了个翻译官。
这个翻译官,传统 ViT 编码器要 150M 到 550M 参数。
Gemma 4 12B 直接把翻译官辞了, 只留一个 35M 的轻量嵌入器,把图片切成 48×48 的小块,当成 token 直接扔进去, 让 Transformer 自己学着看世界,
音频也一样,16kHz 原始波形切成 40ms 一帧,直接喂进同一个模型。
也就是说,图片、声音、文字,第一次被当成同一种东西。
为什么敢这么干,
因为它赌的是一件事, 当基座模型大到某个临界点,那些专门的子模块,就不再是必需品了。
这个剧本你可能见过, 当年 ViT 取代 CNN,也是同一个套路, 规模够大的时候,与其手工设计一堆专用结构,不如把活儿直接交给一个统一的大模型自己学。