本研究提出CroCo方法,扩展了英语中基于自生成响应的对比偏好调优技术。该方法无需语言特定的偏好标注即可实现跨语言迁移,在包含14种高低资源语言的评估中,使用英语偏好训练的奖励模型能为多数语言生成有效的语言内排序。在EuroLLM-9B与Aya-3B两个模型上的实验表明,单语或多语配对设置均能提升多数任务性能,并防止监督微调导致的灾难性遗忘。具体而言,在结构化任务上,调优后模型在EuroLLM-9B的6/7种语言和Aya-3B的4/7种设置中达到或超过基础模型水平;在开放式生成任务中,两个模型在全部11种评估语言上均优于基线。