针对流匹配模型匹配损失与生成质量的结构不匹配,提出Discriminator-Guided RL(DRL)。在预训练表示空间中训练判别器区分真实数据与基模型样本,将其logit作为KL正则化RL的奖励——该奖励近似数据与模型的对数似然比,直接优化数据分布。在SiT、JiT、REPA、RAE上,DRL一致降低无引导FID(SiT从9.38降至2.62)和语义空间FD(SiT在DINOv3上从88.2降至19.3),且在不依赖人类偏好数据的情况下提升人类偏好奖励。偏好微调中,DRL改善偏好奖励与图像保真度的帕累托前沿,减少过饱和等低层次伪影。