Google 和 Cohere 新模型发布同日,mlx-vlm 就把它们塞进了 Mac 本地,DiffusionGemma 用扩散思路生成文本,量化后 18GB 就跑得动,属于本地党必跟的更新。
mlx-vlm v0.6.3 上线,首发支持 DiffusionGemma 和 North Mini Code 1.0。DiffusionGemma 采用全新架构:以 256 token 块为单位并行生成、双向注意力、迭代自纠错;26B MoE 仅激活 3.8B,量化后 18GB 即可运行。North Mini Code 1.0 为 30B MoE,仅激活 3B,BF16 下约 66 tok/s。两款模型均通过深度合作实现 Day-0 MLX 支持,可在 Mac 本地运行。可通过 uv pip install -U mlx-vlm 安装体验。
Prince Canuma 直接把 Google 刚发布的 DiffusionGemma 和 Cohere North Mini Code 当天塞进 Mac 本地 MLX,零等待直接把玩咯!
mlx-vlm v0.6.3 刚上线,DiffusionGemma 这个新架构直接生成 256 token 整块、双向注意力+迭代自纠错,26B MoE 只激活 3.8B,量化后 18GB 就能跑。
North Mini Code 30B MoE 也只要 3B active,BF16 下 66 tok/s 起步。
全靠和 Google DeepMind、Cohere 的深度合作,Day-0 支持拉满!
一键安装即可体验啊~
地址:https://huggingface.co/collections/mlx-community/diffusiongemma