AK@_akhaliq

2026-04-10 01:23·84天前

AI 摘要

新论文提出扩散强化学习方法，在Rollout探索阶段使用FP4低精度采样，训练阶段采用BF16精度，通过混合精度策略平衡计算效率与训练稳定性，实现高效扩展。

FP4 Explore， BF16 Train

Diffusion Reinforcement Learning via Efficient Rollout Scaling

paper： https://huggingface.co/papers/2604.06916

AK@_akhaliq · X

2026-04-10 01:23·84天前

AI 摘要

新论文提出扩散强化学习方法，在Rollout探索阶段使用FP4低精度采样，训练阶段采用BF16精度，通过混合精度策略平衡计算效率与训练稳定性，实现高效扩展。

FP4 Explore， BF16 Train

Diffusion Reinforcement Learning via Efficient Rollout Scaling

paper： https://huggingface.co/papers/2604.06916

x.com