Vergelijk SMOTE met de oorspronkelijke data
In de vorige oefening zag je dat SMOTE ons ineens meer observaties van de minderheidsklasse geeft. Laten we die resultaten vergelijken met onze oorspronkelijke data, zodat je goed begrijpt wat er is gebeurd. We bekijken opnieuw de value counts van zowel de oude als de nieuwe data, en we plotten de twee scatterplots naast elkaar. Gebruik hiervoor de vooraf gedefinieerde functie compare_plot(), die de volgende argumenten accepteert: X, y, X_resampled, y_resampled, method=''. De functie plot je oorspronkelijke data in een scatterplot, samen met de geresamplede data ernaast.
Deze oefening maakt deel uit van de cursus
Fraudedetectie in Python
Oefeninstructies
- Print de value counts van onze oorspronkelijke labels,
y. Let op:yis momenteel een Numpy-array, dus om value counts te gebruiken, zetten weyterug naar een pandas Series-object. - Herhaal de stap en print de value counts van
y_resampled. Dit laat zien hoe de balans tussen de twee klassen is veranderd met SMOTE. - Gebruik de vooraf gedefinieerde functie
compare_plot()op zowel onze oorspronkelijke data als onze geresamplede data om de scatterplots naast elkaar te zien.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Print the value_counts on the original labels y
print(pd.value_counts(pd.Series(____)))
# Print the value_counts
print(____(____(____)))
# Run compare_plot
compare_plot(____, ____, ____, ____, method='SMOTE')