AI 摘要
新论文提出扩散强化学习方法,在Rollout探索阶段使用FP4低精度采样,训练阶段采用BF16精度,通过混合精度策略平衡计算效率与训练稳定性,实现高效扩展。
FP4 Explore, BF16 Train
Diffusion Reinforcement Learning via Efficient Rollout Scaling
paper: https://huggingface.co/papers/2604.06916
新论文提出扩散强化学习方法,在Rollout探索阶段使用FP4低精度采样,训练阶段采用BF16精度,通过混合精度策略平衡计算效率与训练稳定性,实现高效扩展。
FP4 Explore, BF16 Train
Diffusion Reinforcement Learning via Efficient Rollout Scaling
paper: https://huggingface.co/papers/2604.06916
新论文提出扩散强化学习方法,在Rollout探索阶段使用FP4低精度采样,训练阶段采用BF16精度,通过混合精度策略平衡计算效率与训练稳定性,实现高效扩展。
FP4 Explore, BF16 Train
Diffusion Reinforcement Learning via Efficient Rollout Scaling
paper: https://huggingface.co/papers/2604.06916