UniRL把扩散和LLM的强化学习塞进同一个训练循环,外加两个新算法,多模态对齐的研究者可以立刻fork代码试起来。
腾讯混元推出UniRL,一个支持统一多模态模型的强化学习基础设施,并发布两个新算法DRPO和Flow-DPPO。UniRL通过单个后训练循环(生成→评分→优势→更新→同步)覆盖扩散/流匹配模型、LLM/VLM及统一多模态模型(如Hunyuan-Image 3和Bagel)。模型与算法作为独立轴,可实现模型×算法的组合覆盖。框架支持可插拔rollout引擎(训练侧/SGLang/vLLM-Omni)、FSDP2分片和三种部署模式。FlowDPPO针对流/扩散模型引入基于精确散度的信任域策略优化;DRPO为LLM RL提供平滑的优势加权二次正则化方法。代码已开源。
🚀 推出 UniRL,一个面向统一多模态模型的 RL 基础设施。同时带来两个新的 RL 算法:DRPO 和 Flow-DPPO。
一个 RL 循环覆盖扩散模型/流匹配模型、大语言模型/视觉语言模型以及统一多模态模型👇
代码:http://github.com/Tencent-Hunyuan/UniRL
(是的——U(你)-ni(需要) RL 😉)
1、大多数 RL 框架都是为单一模态构建的。UniRL 在多种模型族上应用同一个后训练循环——生成→评分→优势→更新→同步。模型和算法是两个独立的轴,因此你的覆盖面是模型×算法的乘积,而不是一份固定的配方菜单。
2、一个循环,覆盖所有模态:文本→图像、文本/图像→视频、视觉-语言、纯文本大语言模型和视觉语言模型、大语言模型→扩散提示增强器,以及统一的自回归+扩散生成(混元 Image 3 和 Bagel)——这类模型是任何单一用途的 RL 代码库都无法表达的。
3、为扩展而构建:可插拔的 rollout 引擎(训练侧 / SGLang / vLLM-Omni)统一在同一个类型化接口下,FSDP2 分片,以及通过单个配置开关切换三种部署模式。
4、本次发布中重点介绍两个团队原创算法:
FlowDPPO:基于精确散度的流/扩散模型策略优化,带有信任区域掩码(参见我们的论文:Flow-DPPO: Divergence Proximal Policy Optimization for Flow Matching Models https://github.com/Tencent-Hunyuan/UniRL/blob/main/FlowDPPO/HY_FlowDPPO.pdf)
DRPO:带有平滑、优势加权的二次正则化项的大语言模型 RL (参见我们的论文:Rethinking the Divergence Regularization in LLM RL [https://arxiv.org/abs/2606.09821])