Resampling-technieken

In de vorige oefening zag je hoe klasse-ongelijkheid de resultaten van je verwarringsmatrix kan beïnvloeden. In deze oefening ga je resampling-technieken toepassen om te verkennen welke verschillende resultaten alternatieve resampling-stijlen kunnen opleveren bij een gegevensset met klasse-ongelijkheid zoals loan_data. Met de functie resample() van sklearn heet het gelijktrekken met het aantal rijen van de meerderheidsklasse upsamplen, terwijl het gelijktrekken met het aantal rijen van de minderheidsklasse downsamplen wordt genoemd.

Je maakt zowel een ge-upsamplede als ge-downsamplede versie van de loan_data-gegevensset, past daarop een logistieke regressie toe en evalueert vervolgens de prestaties. De trainingsgegevens en bijbehorende labels die overeenkomen met deny zijn gefilterd tot alleen de minderheidsklasse en approve komt overeen met de meerderheid.

Een train/test-split testobject om voorspellingen mee te doen is opgeslagen in de werkruimte als X_test voor gebruik in de oefeningen.

Deze oefening maakt deel uit van de cursus

Machine Learning-sollicitatievragen oefenen in Python

Bekijk cursus

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Upsample minority and combine with majority
loans_upsampled = ____(deny, replace=True, n_samples=len(____), random_state=123)
upsampled = pd.concat([approve, loans_upsampled])

# Downsample majority and combine with minority
loans_downsampled = ____(____, replace = False,  n_samples = len(deny), random_state = 123)
downsampled = pd.concat([loans_downsampled, deny])

Code bewerken en uitvoeren