i1:面向强文生图模型的简单且完全开源配方
阅读原文· arxiv.orgi1 是第一个用全公开数据、完全开源代码/权重/数据管线打造的 3B 模型,直接把全开放模型的性能拉到可与闭源竞争,对做文生图研究的同行是个扎实起点。
i1 是一个 3B 参数的文本到图像扩散模型,仅使用公开数据集训练。在 GenEval、DPG、PRISM、CVTG-2K 和 LongText 五个基准上,i1 性能与领先模型相当,平均比最佳现有完全开源模型高 29.5 个百分点。研究基于 300 余项控制实验(超 700K TPU v6e 小时),发现等权重混合 curated 数据集是强默认配置、更大文本编码器适配器以极少参数提升性能。i1 的检查点、训练与推理代码及数据处理流程已全部开源。
扩散模型持续推动着文本到图像生成领域的进步。然而,很难将最近的进展归因于特定的建模和数据选择:最先进的开源权重模型提供的消融实验有限,并且不公开其训练数据和完整的训练细节。研究界需要完全开放(权重、数据和代码)的模型作为进一步研究的基础;然而,现有的完全开放模型在性能上仍远落后于领先模型。在本项目中,我们通过300多次受控实验(总计超过70万TPU v6e小时),对文本到图像扩散训练和推理中的建模与数据设计选择进行了系统研究。我们的实验突出了若干经验性发现(例如,等权重是混合精选数据集的强默认策略)和简单的设计决策(例如,更大的文本编码器适配器在增加极少数参数的情况下即可提升性能),用于训练强模型。在这些见解的指导下,我们训练了i1,一个仅使用公开可用数据集的30亿参数文本到图像扩散模型。i1在五个代表性基准(GenEval、DPG、PRISM、CVTG-2K和LongText)上与领先模型竞争,并且在平均性能上比现有最优的完全开放模型高出29.5个绝对百分点。我们提供i1的检查点、训练和推理代码以及数据处理流程。综合来看,我们的发现和i1方案为未来文本到图像扩散模型的开放研究奠定了实用基础。我们的代码可在 https://github.com/zlab-princeton/i1 获取。