# 本地设备 AI 图像生成模型 1-Bit Bonsai Image 4B 发布

- 来源：Hacker News 热门（buzzing.cc 中文翻译）
- 作者：modinfo
- 发布时间：2026-06-01 01:47
- AIHOT 分数：72
- AIHOT 标记：精选
- AIHOT 链接：https://aihot.virxact.com/items/cmpu3q6pf00dyslagt2fw0qnp
- 原文链接：https://prismml.com/news/bonsai-image-4b

## 精选理由

端侧图像生成终于进入可用阶段，把 4B 模型压到 iPhone 能跑而且性能保留 95%，做本地 AI 应用的产品人应该认真看一眼。

## AI 摘要

1-Bit Bonsai Image 4B 是一款新的 AI 图像生成模型，其主要特点是面向本地设备进行优化，可以在用户的本地硬件上运行。这是一款专注于端侧部署的图像生成解决方案。

## 正文

使用 Ternary Bonsai 4B 生成的图像

今天，我们发布了 Bonsai Image 4B，这是一系列紧凑型图像生成模型，旨在本地硬件（从笔记本电脑到手机）上运行高质量的扩散模型推理。

Bonsai Image 4B 提供两个变体：

1-bit Bonsai Image 4B 使用二元 {−1, +1} Transformer 权重，并带有 FP16 分组缩放因子，每个权重有效位数为 1.125。它旨在实现最大压缩，适用于内存压力、带宽和部署规模为主要约束的场景。

Ternary Bonsai Image 4B 使用三元 {−1, 0, +1} Transformer 权重，并带有 FP16 分组缩放因子，每个权重有效位数为 1.71。额外的零状态让模型拥有更强的表示灵活性，在保持极高紧凑性的同时提升了视觉质量和提示词忠实度。

这带来了图像生成的全新部署模式：强大的输出能力、开放权重，以及此前这类模型无法触及的设备上可行的本地推理。据我们所知，Bonsai Image 4B 是首个在其参数级别中可直接在 iPhone 上运行的图像模型。

专为本地生成而设计

使用 1-bit Bonsai Image 4B 生成的图像

本地图像生成从一个硬约束开始：模型必须适配设备的显存预算。

对于 4B 级别的图像模型，扩散 Transformer 是模型中最大的部分，也是生成过程中反复运行的部分。每次去噪步骤都会再次调用 Transformer，因此 Transformer 的大小直接决定了内存压力、带宽需求和本地推理速度。

Bonsai Image 4B 基于 FLUX.2 Klein 4B 构建。它保持了架构不变，但改变了 Transformer 权重的表示方式。通过将这些权重转换为二元和三元形式，Bonsai 缩减了图像管线中对本地部署最关键的部分。

模型 扩散 Transformer 相比 FP16 的缩减

FLUX.2 Klein 4B 7.75 GB 1.0x

1-bit Bonsai Image 4B 0.93 GB 8.3x

Ternary Bonsai Image 4B 1.21 GB 6.4x

表 I: 各模型的扩散 Transformer 占用空间。

二值化层相对全精度Transformer权重实现了约14倍的缩减。一小批对精度敏感的支撑张量（约5%），称为投影层，仍然保持FP16格式，因此最终的1-bit Bonsai Image 4B Transformer大小为0.93 GB：相比7.75 GB的全精度FLUX.2 Klein 4B实现了8.3倍的缩减。

三值化变体采用相同结构。其三值化层实现了约10倍的缩减，最终的三值化Bonsai Image 4B Transformer大小为1.21 GB，相比全精度Transformer实现了6.4倍的缩减。它比1-bit模型略大，但额外的零状态提升了视觉质量和提示词忠实度。

包括压缩后的文本编码器和FP16 VAE，在Apple Silicon上的部署包大小分别为：1-bit Bonsai Image 4B为3.42 GB，三值化Bonsai Image 4B为3.88 GB。作为对比，全精度FLUX.2 Klein 4B的部署包大小为15.97 GB。由于在运行时，文本编码器在提示词编码完成后会被卸载，因此平均内存占用小于总部署包大小。在生成512x512图像时，二值化模型和三值化模型的平均活跃内存分别为1.5 GB和1.96 GB，而原始FLUX.2 Klein 4B为11.74 GB（分别缩减了7.8倍和6.0倍）。在生成1024x1024图像时，二值化模型和三值化模型的平均活跃内存分别为1.95 GB和2.38 GB，而原始FLUX.2 Klein 4B为14.39 GB（分别缩减了7.4倍和6.0倍）。

这种内存占用的缩减改变了模型可以运行的设备范围。我们的部署栈支持Apple Silicon的iPhone、iPad和Mac，以及CUDA GPU，在Apple硬件上使用MLX低比特路径，在CUDA上使用Gemlite低比特GEMM内核。在iPhone 17 Pro Max上，全精度FLUX.2 Klein 4B管线无法适配设备内存预算，而两款Bonsai Image变体均可在设备上运行。

视频一：Bonsai Studio上的图像生成

在实际使用中，Bonsai Image 4B在iPhone 17 Pro Max上生成一张512x512图像需要9.4秒，在Mac M4 Pro上约需6秒。在Mac M4 Pro上，Bonsai Image 4B比标准的全精度MFLUX管线快最多5.6倍。

性能基准测试

压缩只有在模型保持实用时才有意义。我们在三个互补的基准上评估了 Bonsai Image 4B：GenEval（用于物体组合和属性绑定）、HPSv3（人类偏好和美学质量）、DPG-Bench（密集提示词遵循和语义忠实度）。

Bonsai Image 与 FLUX.2 Klein 4B 模型之间的定性比较。

模型 扩散Transformer占用量（GB） GenEval HPSv3 DPG-Bench 相对于FLUX.2 Klein 4B的尺寸缩减 相对于FLUX.2 Klein 4B的性能

1-bit Bonsai Image 4B 0.93 0.671 11.15 0.822 8.3倍 88%

三元 Bonsai Image 4B 1.21 0.723 12.22 0.851 6.4倍 95%

FLUX.2 Klein 4B 7.75 0.819 12.84 0.853 1倍 100%

SDXL 5.14 0.3 10.05 0.74 1.5倍 67%

BK-SDM-Small 0.98 0.297 3.05 0.559 7.9倍 42%

Stable Diffusion 1.5 1.72 0.396 4.2 0.601 4.5倍 51%

PixArt-Σ XL 2 1.2 0.541 11.93 0.769 6.4倍 83%

表 II：三元 Bonsai Image 4B 与其他模型的图像质量基准比较。

三元 Bonsai Image 4B 是面向质量的变体。在 1.21 GB 下，它在 GenEval、HPSv3 和 DPG-Bench 上保留了 FLUX.2 Klein 4B 准确率的 95%，同时将扩散Transformer的占用量减少了 6.4 倍。

1-bit Bonsai Image 4B 是面向占用的变体。它将扩散Transformer压缩到 1 GB 以下（减少 8.3 倍），同时仍在上述三项评估中取得了强劲的基准分数（保留了 FLUX.2 Klein 4B 准确率的 88%）。

这两个变体共同推动了质量与占用的前沿边界。Bonsai Image 在与现代 4B 级图像模型竞争的同时，仅使用了其扩散Transformer占用量的极小部分。同时，它也大幅优于那些内存占用量相近但规模更小的模型。这与我们之前在 Bonsai 语言模型中看到的帕累托前沿位移相同。Bonsai Image 将现代扩散Transformer的行为带入了原本属于更小、能力更弱模型的内存区间。

为什么这很重要

图像生成不仅是一个模型质量问题，也是一个部署问题。

对于许多产品而言，云端 API 仍将是正确选择。但纯云端生成会带来一定的产品限制：每一条提示词都是一次远程请求，每一次迭代都产生边际服务成本，每一次交互都会增加往返时延。

这一点之所以重要，是因为图像生成天然具有迭代性。用户很少会只生成一张图就停止。他们会修改提示词、比较输出结果、生成变体、丢弃失败作品并重新尝试。当每一次尝试都是服务端任务时，创作循环就成了用户需要计量和等待的事情。本地推理改变了这一局面。一旦模型能装进设备，生成过程就能直接融入产品体验之中。运行成本更低，迭代速度更快，在那些提示词与生成资产需要保持私密的场景下也更容易使用。

Bonsai Image 4B 正是朝着这种部署模式迈出的一步：让具备能力的图像生成更靠近用户，在他们已有的硬件上运行。

由 Ternary Bonsai Image 4B 生成的图片

可用性

1-bit 版和 Ternary Bonsai Image 4B 都将以开源权重和代码的形式发布，采用 Apache 2.0 许可证。借助此次发布，我们还同步推出了 Bonsai Studio——这款 iOS 应用可以直接在 iPhone 上体验 Bonsai Image 4B。

加入我们

PrismML 源自加州理工学院（Caltech）的一个研究团队，在 Khosla Ventures、Cerberus 和 Google 的支持下成立。多年来，我们一直在攻克该领域最棘手的难题之一：在不牺牲推理能力的前提下压缩神经网络。

如果你想参与构建下一代最先进的 AI，我们期待你的来信。欢迎查看我们的招聘页面。

资源

白皮书

Hugging Face

WebGPU 演示

Bonsai Studio（iPhone 版）

GitHub