FP4 探索,BF16 训练:通过高效 Rollout 扩展的扩散强化学习 · AI HOT