Resampling-Techniken

In der letzten Übung hast du gesehen, wie sich Klassenungleichgewicht auf die Ergebnisse deiner Confusion Matrix auswirken kann. In dieser Übung übst du Resampling-Techniken, um zu untersuchen, welche unterschiedlichen Ergebnisse alternative Resampling-Varianten bei einem Datensatz mit Klassenungleichgewicht wie loan_data liefern können. Mit der resample()-Funktion aus sklearn nennt man das Angleichung der Anzahl der Zeilen an die Mehrheitsklasse Upsampling, während das Angleichung an die Minderheitsklasse Downsampling heißt.

Du erstellst sowohl eine upgesampelte als auch eine downgesampelte Version des Datensatzes loan_data, wendest auf beide eine logistische Regression an und bewertest anschließend die Performance. Die Trainingsdaten und ihre Labels, die deny entsprechen, sind auf die Minderheitsklasse unterteilt, und approve entspricht der Mehrheit.

Ein Train/Test-Split-Objekt zum Testen von Vorhersagen wurde als X_test im Workspace gespeichert und steht dir in den Übungen zur Verfügung.

Diese Übung ist Teil des Kurses

ML-Vorstellungsgespräche in Python üben

Kurs anzeigen

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Upsample minority and combine with majority
loans_upsampled = ____(deny, replace=True, n_samples=len(____), random_state=123)
upsampled = pd.concat([approve, loans_upsampled])

# Downsample majority and combine with minority
loans_downsampled = ____(____, replace = False,  n_samples = len(deny), random_state = 123)
downsampled = pd.concat([loans_downsampled, deny])

Code bearbeiten und ausführen