MRT:用于大规模分层图像生成与编辑的掩码区域Transformer
阅读原文· arxiv.org首次把分层图像生成统一到 20B 遮罩扩散框架,溢出画布层的设计挺巧,让图层可以超出边界编辑,蒸馏后能实时跑,做设计工具的团队该仔细读读。
MRT是一个20B参数的掩码区域扩散模型,专为多层透明图像生成与编辑设计。它在超过1000万个多语言设计样本上训练,统一了文本到图层、图像到图层和图层到图层三项任务。模型通过选择性token掩码实现灵活的图层生成与编辑,并引入溢出感知画布图层以处理边界不一致问题,支持半透明背景合成。此外,应用扩散蒸馏实现了8步实时生成。实验表明,MRT在所有任务上显著优于先前先进方法与商业系统。用户研究显示,其图像到图层质量优于同期Qwen-Image-Layered模型,推理速度快10-100倍,GPU内存消耗降低50-90%。
分层图像生成与编辑是一项基础能力,它支持对生成的视觉内容进行逐层复用、编辑和组合,类似于自然语言中基于单词的编辑。尽管其重要性不言而喻,但这一领域在大规模应用中仍鲜有探索。为填补这一空白,我们提出了MRT——一个拥有200亿参数的掩码区域扩散模型,专为多层透明图像生成与编辑而设计,并在超过1000万个多语言设计样本上进行了训练,这些样本覆盖了多种宽高比和文本提示词。为充分利用这一规模,我们做出了两项关键技术贡献。首先,我们将文本到图层、图像到图层以及图层到图层这三项互补任务统一到一个共享的掩码区域扩散框架中,通过选择性令牌掩码实现了灵活的逐层生成与编辑。其次,为实现溢出图层生成,我们引入了一个溢出感知的画布层,用于处理边界不一致问题并支持半透明背景合成,从而能够生成超出可视画布边界的完整可编辑图层。此外,我们应用扩散蒸馏技术,实现了8步实时多层生成,且质量损失极小。大量实验表明,我们的框架在所有三项任务上均显著超越了先前的先进方法(包括各类商业系统),为多层透明图像生成树立了新的标杆。值得注意的是,根据用户研究结果,我们的模型在图像到图层的质量上显著优于同期发布的Qwen-Image-Layered模型,同时在图像到图层推理过程中实现了10至100倍的推理加速,并将激活GPU内存消耗降低了50%至90%。