Interfaze 开源了 diffusion-gemma-asr-small,据称是首个开源多语言扩散 ASR 模型。该模型使用 DiffusionGemma 的离散扩散解码器(26B MoE 骨干,4B 激活参数,128 专家 top-8 路由)进行非自回归语音转文本。仅训练约 42M 参数适配器,冻结 backbone;采用 frozen whisper-small 编码器提取 1500 帧 768 维特征,经可训练投影器(约 19M 参数)压缩为 188 个 2816 维音频 token 注入提示槽,解码器双向并行去噪约 16 步。单适配器支持六种语言。在 LibriSpeech test-clean 上 WER 6.6%,优于同类扩散模型 Whisfusion(8.3%),但落后自回归 Whisper。去噪步数从 8 增至 48 仅提升约 0.1 个 WER 点,8 步时达 14.9 倍实时速度。适配器以 Apache-2.0 开源,DiffusionGemma 和 whisper-small 需单独加载。