混合线性注意力模型可加速长上下文推理,但将预训练Transformer转换为Gated DeltaNet学生模型时,直接复制教师注意力投影会导致初始化脆弱,需大量蒸馏token修复。Taylor-Calibrate是一种轻量级初始化方法,利用Taylor引导的教师注意力统计设定值投影、记忆时间尺度、写门和输出门,再通过短逐层对齐匹配教师输出。在四个教师设置和三种保留层策略下,Taylor-Calibrate显著提升零样本学生性能,代表性消融改进高达88倍,达到匹配恢复目标所需训练token比朴素转换少4.9至9.2倍。