GFT:基于无偏群组优势与动态系数修正的从模仿到奖励微调 · AI HOT