现有方法将自回归模型(ARLM)转换为扩散语言模型(DLM)时面临两种分布偏移:目标函数切换导致知识丢失,以及训练时随机掩码序列与推理时置信度解码轨迹不匹配。研究者提出OPDLM,采用On-Policy蒸馏(OPD)进行转换。学生模型(双向注意力的ARLM)生成自身轨迹,教师模型(冻结的原ARLM)在这些轨迹上提供目标logits完成知识蒸馏。OPDLM以on-policy方式训练,消除了DLM的训练-推理不匹配,蒸馏机制保留了原ARLM知识。实验表明,OPDLM仅需原训练token量的1/15至1/7000,在多样任务上表现强劲,使DLM转换成为ARLM后训练手段。