LLM后训练技术:SFT、DPO、GRPO进阶对比 · AI HOT