惊讶于一年多后,用单一数字比较推理模型评估结果仍是常态 · AI HOT