SMOTE anwenden
In dieser Übung balancierst du die Daten mit der Synthetic Minority Over-sampling Technique (SMOTE) neu aus. Anders als ROS erstellt SMOTE keine exakten Kopien von Beobachtungen, sondern generiert neue, synthetische Stichproben, die den bestehenden Beobachtungen in der Minderheitsklasse sehr ähnlich sind. SMOTE ist damit etwas ausgefeilter als das bloße Kopieren von Beobachtungen. Wenden wir SMOTE also auf unsere Kreditkartendaten an.
Der Datensatz df ist verfügbar und die für SMOTE benötigten Pakete sind importiert. In der folgenden Übung visualisierst du das Ergebnis und vergleichst es mit den Originaldaten, sodass du den Effekt von SMOTE sehr deutlich siehst.
Diese Übung ist Teil des Kurses
Betrugserkennung mit Python
Anleitung zur Übung
- Verwende die Funktion
prep_dataaufdf, um die MerkmaleXund die Labelsyzu erstellen. - Definiere die Resampling-Methode als reguläres SMOTE unter der Variablen
method. - Verwende
.fit_resample()auf dem ursprünglichenXundy, um neu abgetastete Daten zu erhalten. - Visualisiere die resampleten Daten mit der Funktion
plot_data().
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
from imblearn.over_sampling import SMOTE
# Run the prep_data function
X, y = ____(df)
# Define the resampling method
method = ____()
# Create the resampled feature set
X_resampled, y_resampled = method.____(____, ____)
# Plot the resampled data
plot_data(____, ____)