从推理到智能体:大语言模型强化学习中的信用分配 · AI HOT