SMOTE mit Originaldaten vergleichen
In der letzten Übung hast du gesehen, dass SMOTE uns plötzlich mehr Beobachtungen der Minderheitsklasse liefert. Vergleichen wir diese Ergebnisse mit unseren Originaldaten, um ein Gefühl dafür zu bekommen, was genau passiert ist. Schau dir dazu erneut die Value Counts unserer alten und neuen Daten an und plotte die beiden Scatterplots nebeneinander. Dafür verwendest du die vordefinierte Funktion compare_plot(), die die folgenden Argumente erwartet: X, y, X_resampled, y_resampled, method=''. Die Funktion zeigt deine Originaldaten in einem Scatterplot zusammen mit den resampelten Daten nebeneinander an.
Diese Übung ist Teil des Kurses
Betrugserkennung mit Python
Anleitung zur Übung
- Gib die Value Counts unserer ursprünglichen Labels
yaus. Beachte:yist derzeit ein Numpy-Array, daher weisen wiryfür die Value Counts wieder als pandas-Series-Objekt zu. - Wiederhole den Schritt und gib die Value Counts für
y_resampledaus. So siehst du, wie sich mit SMOTE die Balance zwischen den beiden Klassen verändert hat. - Verwende die vordefinierte Funktion
compare_plot()und rufe sie sowohl für unsere Originaldaten als auch für die resampelten Daten auf, um die Scatterplots nebeneinander zu sehen.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Print the value_counts on the original labels y
print(pd.value_counts(pd.Series(____)))
# Print the value_counts
print(____(____(____)))
# Run compare_plot
compare_plot(____, ____, ____, ____, method='SMOTE')