# FP4 探索，BF16 训练：通过高效 Rollout 扩展的扩散强化学习

- 来源：AK (@_akhaliq)
- 发布时间：2026-04-10 01:23
- AIHOT 链接：https://aihot.virxact.com/items/cmnw1xt9m00bdslc3ztjy5s5y
- 原文链接：https://x.com/_akhaliq/status/2042292415403356646

## AI 摘要

新论文提出扩散强化学习方法，在Rollout探索阶段使用FP4低精度采样，训练阶段采用BF16精度，通过混合精度策略平衡计算效率与训练稳定性，实现高效扩展。

## 正文

FP4 Explore， BF16 Train

Diffusion Reinforcement Learning via Efficient Rollout Scaling

paper： https://huggingface.co/papers/2604.06916
