设计完整的多模态 RLVR 流程,涵盖 Open-MM-RL、视觉-语言提示、奖励评分与 GRPO 导出 · AI HOT