CoSPlay是一个无需Ground-Truth数据且无需训练的代码生成框架,其通过合作自博弈机制联合提升代码与单元测试质量。工作流程为:探索多样化方案并识别潜在失败模式以生成有区分度的单元测试;利用代码-单元测试执行矩阵中的双向通过计数信号,迭代修剪或修复弱代码、刷新或替换不可靠测试,使两个候选池协同演进;最终从最大输出共识簇中选择代码,因为正确代码对相同输入的输出一致。在四个基准测试上,应用于Qwen2.5-7B-Instruct时,将平均BoN从22.1%提升至33.2%,单元测试准确率从14.6%提升至78.3%,性能匹配或超越RLVR模型CURE-7B;应用于CURE-7B时,可进一步将BoN提升5.7%。该方法在不同骨干模型上具备泛化能力,且在可比的token预算下优于无GT数据的TTS基线,性能随预算增加持续提升。