C2:基于二元偏好的可扩展评分标准增强奖励建模 · AI HOT