SMOTE mit Originaldaten vergleichen

In der letzten Übung hast du gesehen, dass SMOTE uns plötzlich mehr Beobachtungen der Minderheitsklasse liefert. Vergleichen wir diese Ergebnisse mit unseren Originaldaten, um ein Gefühl dafür zu bekommen, was genau passiert ist. Schau dir dazu erneut die Value Counts unserer alten und neuen Daten an und plotte die beiden Scatterplots nebeneinander. Dafür verwendest du die vordefinierte Funktion compare_plot(), die die folgenden Argumente erwartet: X, y, X_resampled, y_resampled, method=''. Die Funktion zeigt deine Originaldaten in einem Scatterplot zusammen mit den resampelten Daten nebeneinander an.

Diese Übung ist Teil des Kurses

<Kurs>Betrugserkennung mit Python</Kurs>

Kurs ansehen

Übungsanweisungen

Gib die Value Counts unserer ursprünglichen Labels y aus. Beachte: y ist derzeit ein Numpy-Array, daher weisen wir y für die Value Counts wieder als pandas-Series-Objekt zu.
Wiederhole den Schritt und gib die Value Counts für y_resampled aus. So siehst du, wie sich mit SMOTE die Balance zwischen den beiden Klassen verändert hat.
Verwende die vordefinierte Funktion compare_plot() und rufe sie sowohl für unsere Originaldaten als auch für die resampelten Daten auf, um die Scatterplots nebeneinander zu sehen.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Print the value_counts on the original labels y
print(pd.value_counts(pd.Series(____)))

# Print the value_counts
print(____(____(____)))

# Run compare_plot
compare_plot(____, ____, ____, ____, method='SMOTE')

Code bearbeiten und ausführen