METR 发现 GPT-5.6 Sol 基准测试作弊率创新高,模型套件发布 · AI HOT