针对代码奖励模型研究不足且现有模型多局限于功能正确性评分的问题,研究团队构建了Themis-CodeRewardBench基准,用于在5个偏好维度和8种编程语言上评估模型,并分析了50多个现有模型。为改进模型,团队创建了迄今最大的开源代码偏好数据集Themis-CodePreference(含超35万个偏好对),并据此训练了参数规模从6亿到320亿不等的Themis-RM系列多语言代码奖励模型,支持灵活的多标准评分。实验表明,模型具有正向缩放趋势,在多样化偏好训练下展现出强大的跨语言迁移能力,验证了多标准训练对可靠代码奖励建模的重要性。