基于梯度的 RLVR 稳定性分析与 WAPO · AI HOT