Tencent Hy@TencentHunyuan

精选67

2026-06-09 19:45·23天前

精选理由

UniRL把扩散和LLM的强化学习塞进同一个训练循环，外加两个新算法，多模态对齐的研究者可以立刻fork代码试起来。

AI 摘要

腾讯混元推出UniRL，一个支持统一多模态模型的强化学习基础设施，并发布两个新算法DRPO和Flow-DPPO。UniRL通过单个后训练循环（生成→评分→优势→更新→同步）覆盖扩散/流匹配模型、LLM/VLM及统一多模态模型（如Hunyuan-Image 3和Bagel）。模型与算法作为独立轴，可实现模型×算法的组合覆盖。框架支持可插拔rollout引擎（训练侧/SGLang/vLLM-Omni）、FSDP2分片和三种部署模式。FlowDPPO针对流/扩散模型引入基于精确散度的信任域策略优化；DRPO为LLM RL提供平滑的优势加权二次正则化方法。代码已开源。

AI 翻译 · 中文

🚀 推出 UniRL，一个面向统一多模态模型的 RL 基础设施。同时带来两个新的 RL 算法：DRPO 和 Flow-DPPO。

一个 RL 循环覆盖扩散模型/流匹配模型、大语言模型/视觉语言模型以及统一多模态模型👇

代码：http://github.com/Tencent-Hunyuan/UniRL

（是的——U(你)-ni(需要) RL 😉）

1、大多数 RL 框架都是为单一模态构建的。UniRL 在多种模型族上应用同一个后训练循环——生成→评分→优势→更新→同步。模型和算法是两个独立的轴，因此你的覆盖面是模型×算法的乘积，而不是一份固定的配方菜单。

2、一个循环，覆盖所有模态：文本→图像、文本/图像→视频、视觉-语言、纯文本大语言模型和视觉语言模型、大语言模型→扩散提示增强器，以及统一的自回归+扩散生成（混元 Image 3 和 Bagel）——这类模型是任何单一用途的 RL 代码库都无法表达的。

3、为扩展而构建：可插拔的 rollout 引擎（训练侧 / SGLang / vLLM-Omni）统一在同一个类型化接口下，FSDP2 分片，以及通过单个配置开关切换三种部署模式。

4、本次发布中重点介绍两个团队原创算法：

FlowDPPO：基于精确散度的流/扩散模型策略优化，带有信任区域掩码（参见我们的论文：Flow-DPPO: Divergence Proximal Policy Optimization for Flow Matching Models https://github.com/Tencent-Hunyuan/UniRL/blob/main/FlowDPPO/HY_FlowDPPO.pdf）

DRPO：带有平滑、优势加权的二次正则化项的大语言模型 RL （参见我们的论文：Rethinking the Divergence Regularization in LLM RL [https://arxiv.org/abs/2606.09821]）

Tencent Hy@TencentHunyuan · X

精选67导出 Markdown