从推理链到可验证子问题:课程强化学习实现LLM推理的信用分配 · AI HOT