研究提出,在编码器适应新领域时,先短暂切换至因果语言建模(CLM),再进行掩码语言建模(MLM)衰减训练,可有效提升下游任务性能。在生物医学文本上使用ModernBERT的实验表明,该策略在相同数据和算力下,于多项法语和英语生物医学任务中均稳定优于纯MLM基线。分析发现,CLM的密集监督主要影响Transformer低层,其带来的表征变化在后续MLM阶段得以持续并随模型容量扩展。基于此方法发布的ModernCamemBERT-bio与ModernBERT-bio模型,成为当前先进的生物医学编码器。