GPT-5.5低分评测引反思,呼吁更新评估体系 · AI HOT