SMOTE toepassen
In deze oefening ga je onze data herverdelen met de Synthetic Minority Over-sampling Technique (SMOTE). In tegenstelling tot ROS maakt SMOTE geen exacte kopieën van observaties, maar creëert het nieuwe, synthetische, samples die sterk lijken op de bestaande observaties in de minderheidsklasse. SMOTE is daardoor net wat geavanceerder dan simpelweg kopiëren. Laten we SMOTE toepassen op onze creditcarddata.
De gegevensset df is beschikbaar en de pakketten die je voor SMOTE nodig hebt, zijn geïmporteerd. In de volgende oefening visualiseer je het resultaat en vergelijk je dat met de originele data, zodat je het effect van SMOTE heel duidelijk kunt zien.
Deze oefening maakt deel uit van de cursus
Fraudedetectie in Python
Oefeninstructies
- Gebruik de functie
prep_dataopdfom featuresXen labelsyte maken. - Definieer de resampling-methode als gewone SMOTE onder de variabele
method. - Gebruik
.fit_resample()op de origineleXenyom nieuw hergesamplede data te krijgen. - Plot de hergesamplede data met de functie
plot_data().
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
from imblearn.over_sampling import SMOTE
# Run the prep_data function
X, y = ____(df)
# Define the resampling method
method = ____()
# Create the resampled feature set
X_resampled, y_resampled = method.____(____, ____)
# Plot the resampled data
plot_data(____, ____)