杜克大学团队提出一种高效训练扩散语言模型的新方法。核心观点是无需从头训练,而是将现有强大的预训练自回归语言模型作为知识源。他们提出的REPR-ALIGN方法,在掩码扩散训练过程中,通过余弦相似度逐层将扩散模型的隐藏状态与冻结的自回归教师模型对齐。该方法无需添加适配器或改变架构,仅调整注意力掩码。实验结果显示,训练速度最高可提升4倍,在低数据场景下效果提升尤其显著。
兄弟们,训练Diffusion LLM原来可以这么省?
大家都知道扩散语言模型(DLM)很香:支持双向生成、非顺序解码、灵活编辑。
但从零训一个,成本高得离谱。
Duke大学PhD Fred Peng(@pengzhangzhi1)和团队直接给出了一个反直觉的答案:
别重训了,直接对齐就行。
论文标题叫《Don't Retrain, Align》。
核心思路很简单:
我们已经有强大的预训练Autoregressive LM(AR LM),里面已经学好了绝大部分语言表示。
DLM真正需要改的只是生成顺序和去噪行为。
所以他们提出了REPR-ALIGN:在做masked diffusion训练的同时,逐层用余弦相似度,把DLM的hidden states对齐到冻结的AR teacher模型上。
不需要加adapter,不需要改架构,只改attention mask。
结果:在他们的实验设置里,训练速度最高提升4倍,低数据场景下效果尤其明显。
一句话总结:
不要把表示空间从头重训一遍,对齐它,让模型只去重新学习解码路径就够了。