只需最少RLVR训练:通过秩-1轨迹外推大语言模型 · AI HOT