诊断答案正确的长链式推理训练轨迹中的有害延续 · AI HOT