小模型是GRPO中策略级多样性的天然探索者:S2L-PO框架 · AI HOT