# 超越可验证奖励的准则引导策略分解元强化学习

- 来源：AK (@_akhaliq)
- 发布时间：2026-05-13 20:53
- AIHOT 分数：57
- AIHOT 链接：https://aihot.virxact.com/items/cmp42jxaw02gqsljxd40t64pn
- 原文链接：https://x.com/_akhaliq/status/2054545468818854267

## AI 摘要

RubricEM

超越可验证奖励的准则引导策略分解元强化学习

## 正文

RubricEM

Meta-RL with Rubric-guided Policy Decomposition beyond Verifiable Rewards
