Sumi:从头训练的7B开源均匀扩散语言模型
Sumi 是第一个完全从零预训练的大规模均匀扩散语言模型,填补了社区在这方向的研究空白,做扩散语言模型的人终于有个可以摸的起点。
Sumi(日语“墨”)是一个完全开源的7B参数均匀扩散语言模型,从零开始在1.5T模型token上预训练。它在知识、推理和编程评测中与同等token预算的自回归模型表现相当,但在常识推理benchmark上略逊,教育密集型数据混合可能是原因之一。Sumi开放模型权重、检查点及完整训练配方(含公开语料数据混合说明),为社区提供首个大规模均匀扩散模型的基准参考。
扩散模型已成为自回归模型的一种有前景的替代方案。其中,均匀扩散语言模型(UDLM)允许任意token在任意步骤被更新,理论上能够实现更灵活的生成。然而,目前还没有任何UDLM在既达到大规模参数又使用大量token的前提下从头开始预训练。自回归建模和掩码扩散建模在规模化层面均已存在可供社区研究和构建的可用模型,而均匀扩散模型则缺乏这样的基础。一个从头预训练的大规模UDLM将为研究扩展行为、生成动态、可控性以及与现有自回归模型和掩码扩散模型之间的权衡提供一个清晰的参照基准。为此,我们提出了Sumi(日语中意为"墨"),这是一个完全开源的7B参数均匀扩散语言模型,在1.5T token上从头预训练而成。Sumi在知识、推理和编程基准测试中,与使用可比token预算训练的自回归模型表现相当,但在常识基准上表现稍逊,这很可能归因于我们以教育类数据为主的混合数据集。我们公开了模型权重、检查点以及完整的训练方案,包括对公开语料库数据混合的完整说明。我们希望这一开源成果能使社区能够在大规模层面研究原生均匀扩散模型,并推动对其尚不为人熟知的方面开展探索。