LoslegenKostenlos loslegen

SMOTE mit Originaldaten vergleichen

In der letzten Übung hast du gesehen, dass SMOTE uns plötzlich mehr Beobachtungen der Minderheitsklasse liefert. Vergleichen wir diese Ergebnisse mit unseren Originaldaten, um ein Gefühl dafür zu bekommen, was genau passiert ist. Schau dir dazu erneut die Value Counts unserer alten und neuen Daten an und plotte die beiden Scatterplots nebeneinander. Dafür verwendest du die vordefinierte Funktion compare_plot(), die die folgenden Argumente erwartet: X, y, X_resampled, y_resampled, method=''. Die Funktion zeigt deine Originaldaten in einem Scatterplot zusammen mit den resampelten Daten nebeneinander an.

Diese Übung ist Teil des Kurses

Betrugserkennung mit Python

Kurs anzeigen

Anleitung zur Übung

  • Gib die Value Counts unserer ursprünglichen Labels y aus. Beachte: y ist derzeit ein Numpy-Array, daher weisen wir y für die Value Counts wieder als pandas-Series-Objekt zu.
  • Wiederhole den Schritt und gib die Value Counts für y_resampled aus. So siehst du, wie sich mit SMOTE die Balance zwischen den beiden Klassen verändert hat.
  • Verwende die vordefinierte Funktion compare_plot() und rufe sie sowohl für unsere Originaldaten als auch für die resampelten Daten auf, um die Scatterplots nebeneinander zu sehen.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Print the value_counts on the original labels y
print(pd.value_counts(pd.Series(____)))

# Print the value_counts
print(____(____(____)))

# Run compare_plot
compare_plot(____, ____, ____, ____, method='SMOTE')
Code bearbeiten und ausführen