SMOTE anwenden

In dieser Übung balancierst du die Daten mit der Synthetic Minority Over-sampling Technique (SMOTE) neu aus. Anders als ROS erstellt SMOTE keine exakten Kopien von Beobachtungen, sondern generiert neue, synthetische Stichproben, die den bestehenden Beobachtungen in der Minderheitsklasse sehr ähnlich sind. SMOTE ist damit etwas ausgefeilter als das bloße Kopieren von Beobachtungen. Wenden wir SMOTE also auf unsere Kreditkartendaten an. Der Datensatz df ist verfügbar und die für SMOTE benötigten Pakete sind importiert. In der folgenden Übung visualisierst du das Ergebnis und vergleichst es mit den Originaldaten, sodass du den Effekt von SMOTE sehr deutlich siehst.

Diese Übung ist Teil des Kurses

<Kurs>Betrugserkennung mit Python</Kurs>

Kurs ansehen

Übungsanweisungen

Verwende die Funktion prep_data auf df, um die Merkmale X und die Labels y zu erstellen.
Definiere die Resampling-Methode als reguläres SMOTE unter der Variablen method.
Verwende .fit_resample() auf dem ursprünglichen X und y, um neu abgetastete Daten zu erhalten.
Visualisiere die resampleten Daten mit der Funktion plot_data().

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

from imblearn.over_sampling import SMOTE

# Run the prep_data function
X, y = ____(df)

# Define the resampling method
method = ____()

# Create the resampled feature set
X_resampled, y_resampled = method.____(____, ____)

# Plot the resampled data
plot_data(____, ____)

Code bearbeiten und ausführen