GRPO、Dr. GRPO 与 DAPO:组标准差上的三种操作 · AI HOT