本地设备 AI 图像生成模型 1-Bit Bonsai Image 4B 发布
阅读原文· prismml.com端侧图像生成终于进入可用阶段,把 4B 模型压到 iPhone 能跑而且性能保留 95%,做本地 AI 应用的产品人应该认真看一眼。
1-Bit Bonsai Image 4B 是一款新的 AI 图像生成模型,其主要特点是面向本地设备进行优化,可以在用户的本地硬件上运行。这是一款专注于端侧部署的图像生成解决方案。

今天,我们发布了 Bonsai Image 4B,这是一系列紧凑型图像生成模型,旨在本地硬件(从笔记本电脑到手机)上运行高质量的扩散模型推理。
Bonsai Image 4B 提供两个变体:
- 1-bit Bonsai Image 4B 使用二元 {−1, +1} Transformer 权重,并带有 FP16 分组缩放因子,每个权重有效位数为 1.125。它旨在实现最大压缩,适用于内存压力、带宽和部署规模为主要约束的场景。
- Ternary Bonsai Image 4B 使用三元 {−1, 0, +1} Transformer 权重,并带有 FP16 分组缩放因子,每个权重有效位数为 1.71。额外的零状态让模型拥有更强的表示灵活性,在保持极高紧凑性的同时提升了视觉质量和提示词忠实度。
这带来了图像生成的全新部署模式:强大的输出能力、开放权重,以及此前这类模型无法触及的设备上可行的本地推理。据我们所知,Bonsai Image 4B 是首个在其参数级别中可直接在 iPhone 上运行的图像模型。
专为本地生成而设计

本地图像生成从一个硬约束开始:模型必须适配设备的显存预算。
对于 4B 级别的图像模型,扩散 Transformer 是模型中最大的部分,也是生成过程中反复运行的部分。每次去噪步骤都会再次调用 Transformer,因此 Transformer 的大小直接决定了内存压力、带宽需求和本地推理速度。
Bonsai Image 4B 基于 FLUX.2 Klein 4B 构建。它保持了架构不变,但改变了 Transformer 权重的表示方式。通过将这些权重转换为二元和三元形式,Bonsai 缩减了图像管线中对本地部署最关键的部分。
| 模型 | 扩散 Transformer | 相比 FP16 的缩减 |
|---|---|---|
| FLUX.2 Klein 4B | 7.75 GB | 1.0x |
| 1-bit Bonsai Image 4B | 0.93 GB | 8.3x |
| Ternary Bonsai Image 4B | 1.21 GB | 6.4x |
表 I: 各模型的扩散 Transformer 占用空间。
二值化层相对全精度Transformer权重实现了约14倍的缩减。一小批对精度敏感的支撑张量(约5%),称为投影层,仍然保持FP16格式,因此最终的1-bit Bonsai Image 4B Transformer大小为0.93 GB:相比7.75 GB的全精度FLUX.2 Klein 4B实现了8.3倍的缩减。
三值化变体采用相同结构。其三值化层实现了约10倍的缩减,最终的三值化Bonsai Image 4B Transformer大小为1.21 GB,相比全精度Transformer实现了6.4倍的缩减。它比1-bit模型略大,但额外的零状态提升了视觉质量和提示词忠实度。
包括压缩后的文本编码器和FP16 VAE,在Apple Silicon上的部署包大小分别为:1-bit Bonsai Image 4B为3.42 GB,三值化Bonsai Image 4B为3.88 GB。作为对比,全精度FLUX.2 Klein 4B的部署包大小为15.97 GB。由于在运行时,文本编码器在提示词编码完成后会被卸载,因此平均内存占用小于总部署包大小。在生成512x512图像时,二值化模型和三值化模型的平均活跃内存分别为1.5 GB和1.96 GB,而原始FLUX.2 Klein 4B为11.74 GB(分别缩减了7.8倍和6.0倍)。在生成1024x1024图像时,二值化模型和三值化模型的平均活跃内存分别为1.95 GB和2.38 GB,而原始FLUX.2 Klein 4B为14.39 GB(分别缩减了7.4倍和6.0倍)。
这种内存占用的缩减改变了模型可以运行的设备范围。我们的部署栈支持Apple Silicon的iPhone、iPad和Mac,以及CUDA GPU,在Apple硬件上使用MLX低比特路径,在CUDA上使用Gemlite低比特GEMM内核。在iPhone 17 Pro Max上,全精度FLUX.2 Klein 4B管线无法适配设备内存预算,而两款Bonsai Image变体均可在设备上运行。
视频一:Bonsai Studio上的图像生成
在实际使用中,Bonsai Image 4B在iPhone 17 Pro Max上生成一张512x512图像需要9.4秒,在Mac M4 Pro上约需6秒。在Mac M4 Pro上,Bonsai Image 4B比标准的全精度MFLUX管线快最多5.6倍。
性能基准测试
压缩只有在模型保持实用时才有意义。我们在三个互补的基准上评估了 Bonsai Image 4B:GenEval(用于物体组合和属性绑定)、HPSv3(人类偏好和美学质量)、DPG-Bench(密集提示词遵循和语义忠实度)。

| 模型 | 扩散Transformer占用量(GB) | GenEval | HPSv3 | DPG-Bench | 相对于FLUX.2 Klein 4B的尺寸缩减 | 相对于FLUX.2 Klein 4B的性能 |
|---|---|---|---|---|---|---|
| 1-bit Bonsai Image 4B | 0.93 | 0.671 | 11.15 | 0.822 | 8.3倍 | 88% |
| 三元 Bonsai Image 4B | 1.21 | 0.723 | 12.22 | 0.851 | 6.4倍 | 95% |
| FLUX.2 Klein 4B | 7.75 | 0.819 | 12.84 | 0.853 | 1倍 | 100% |
| SDXL | 5.14 | 0.3 | 10.05 | 0.74 | 1.5倍 | 67% |
| BK-SDM-Small | 0.98 | 0.297 | 3.05 | 0.559 | 7.9倍 | 42% |
| Stable Diffusion 1.5 | 1.72 | 0.396 | 4.2 | 0.601 | 4.5倍 | 51% |
| PixArt-Σ XL 2 | 1.2 | 0.541 | 11.93 | 0.769 | 6.4倍 | 83% |
表 II:三元 Bonsai Image 4B 与其他模型的图像质量基准比较。
三元 Bonsai Image 4B 是面向质量的变体。在 1.21 GB 下,它在 GenEval、HPSv3 和 DPG-Bench 上保留了 FLUX.2 Klein 4B 准确率的 95%,同时将扩散Transformer的占用量减少了 6.4 倍。
1-bit Bonsai Image 4B 是面向占用的变体。它将扩散Transformer压缩到 1 GB 以下(减少 8.3 倍),同时仍在上述三项评估中取得了强劲的基准分数(保留了 FLUX.2 Klein 4B 准确率的 88%)。
这两个变体共同推动了质量与占用的前沿边界。Bonsai Image 在与现代 4B 级图像模型竞争的同时,仅使用了其扩散Transformer占用量的极小部分。同时,它也大幅优于那些内存占用量相近但规模更小的模型。这与我们之前在 Bonsai 语言模型中看到的帕累托前沿位移相同。Bonsai Image 将现代扩散Transformer的行为带入了原本属于更小、能力更弱模型的内存区间。
为什么这很重要
图像生成不仅是一个模型质量问题,也是一个部署问题。
对于许多产品而言,云端 API 仍将是正确选择。但纯云端生成会带来一定的产品限制:每一条提示词都是一次远程请求,每一次迭代都产生边际服务成本,每一次交互都会增加往返时延。
这一点之所以重要,是因为图像生成天然具有迭代性。用户很少会只生成一张图就停止。他们会修改提示词、比较输出结果、生成变体、丢弃失败作品并重新尝试。当每一次尝试都是服务端任务时,创作循环就成了用户需要计量和等待的事情。本地推理改变了这一局面。一旦模型能装进设备,生成过程就能直接融入产品体验之中。运行成本更低,迭代速度更快,在那些提示词与生成资产需要保持私密的场景下也更容易使用。
Bonsai Image 4B 正是朝着这种部署模式迈出的一步:让具备能力的图像生成更靠近用户,在他们已有的硬件上运行。

可用性
1-bit 版和 Ternary Bonsai Image 4B 都将以开源权重和代码的形式发布,采用 Apache 2.0 许可证。借助此次发布,我们还同步推出了 Bonsai Studio——这款 iOS 应用可以直接在 iPhone 上体验 Bonsai Image 4B。
加入我们
PrismML 源自加州理工学院(Caltech)的一个研究团队,在 Khosla Ventures、Cerberus 和 Google 的支持下成立。多年来,我们一直在攻克该领域最棘手的难题之一:在不牺牲推理能力的前提下压缩神经网络。
如果你想参与构建下一代最先进的 AI,我们期待你的来信。欢迎查看我们的招聘页面。
资源
- 白皮书
- Hugging Face
- WebGPU 演示
- Bonsai Studio(iPhone 版)
- GitHub