单层Transformer即可匹配全参数强化学习训练:Qwen3/Qwen2.5等模型研究 · AI HOT