构建更优的 AI 基准测试:多少评分者才够? · AI HOT