Resampling-Techniken
In der letzten Übung hast du gesehen, wie sich Klassenungleichgewicht auf die Ergebnisse deiner Confusion Matrix auswirken kann. In dieser Übung übst du Resampling-Techniken, um zu untersuchen, welche unterschiedlichen Ergebnisse alternative Resampling-Varianten bei einem Datensatz mit Klassenungleichgewicht wie loan_data liefern können. Mit der resample()-Funktion aus sklearn nennt man das Angleichung der Anzahl der Zeilen an die Mehrheitsklasse Upsampling, während das Angleichung an die Minderheitsklasse Downsampling heißt.
Du erstellst sowohl eine upgesampelte als auch eine downgesampelte Version des Datensatzes loan_data, wendest auf beide eine logistische Regression an und bewertest anschließend die Performance. Die Trainingsdaten und ihre Labels, die deny entsprechen, sind auf die Minderheitsklasse unterteilt, und approve entspricht der Mehrheit.
Ein Train/Test-Split-Objekt zum Testen von Vorhersagen wurde als X_test im Workspace gespeichert und steht dir in den Übungen zur Verfügung.
Diese Übung ist Teil des Kurses
<Kurs>ML-Vorstellungsgespräche in Python üben</Kurs>Interaktive praktische Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Upsample minority and combine with majority
loans_upsampled = ____(deny, replace=True, n_samples=len(____), random_state=123)
upsampled = pd.concat([approve, loans_upsampled])
# Downsample majority and combine with minority
loans_downsampled = ____(____, replace = False, n_samples = len(deny), random_state = 123)
downsampled = pd.concat([loans_downsampled, deny])