# Google 发布 Diffusion Gemma：26B/4B 激活，5090 达 700+ token/s

- 来源：karminski-牙医 (@karminski3)
- 发布时间：2026-06-12 07:32
- AIHOT 分数：65
- AIHOT 链接：https://aihot.virxact.com/items/cmqa4yvvz0i7eslldewctw19k
- 原文链接：https://x.com/karminski3/status/2065215642186506370

## AI 摘要

Google 推出 Diffusion Gemma，大小 26B、激活参数量 4B，与 NVIDIA 合作针对 RTX 4090/5090 优化，5090 上速度达 700+ token/s。该扩散文本模型以“刮奖式”并行生成而非逐 token 生成，输出质量略逊但优于此前同类模型：AIME 2026（数学）达 Gemma4-26B-A4B 的 94%，tau2 bench（Agent）达 82%。4bit 量化版仅需 16G 显存即可运行。

## 正文

单卡 700TPS！ Diffusion Gemma 来了！

Google 刚刚发布了 Gemma 小模型的 Diffusion 版本！ 大小26B， 激活参数量4B， 最重要的是， 这次还跟 NVIDIA 合作针对4090和5090优化了一波， 5090每秒能生成700+token！

给不知道什么是 Diffusion 大模型的同学科普一下， 传统大模型都是一个字一个字吐出来的， 而 Diffusion 大模型则是如同刮奖一样， 是一片一片出来的， 速度高是 Diffusion 大模型的优点.

有得必有失， 缺点当然就是输出质量没有传统大模型好了. 不过这次的 Diffusion Gemma 还是比之前的 Diffusion 文本大模型好不少， AIME 2026（数学能力测试） 能达到 Gemma4-26B-A4B 的94%的水平， 最差的是tau2 bench（考验Agent能力的测试）， 也能达到82%.

这个模型大小 4bit 量化版本 16G 显存就能运行了， 另外， 我突发奇想， 这个模型能不能作为 gemma4 dense 模型的草稿模型用来投机解码？ 感兴趣的同学可以试试！

#diffusiongemma #gemma #gemma4 #google