Vergelijk SMOTE met de oorspronkelijke data

In de vorige oefening zag je dat SMOTE ons ineens meer observaties van de minderheidsklasse geeft. Laten we die resultaten vergelijken met onze oorspronkelijke data, zodat je goed begrijpt wat er is gebeurd. We bekijken opnieuw de value counts van zowel de oude als de nieuwe data, en we plotten de twee scatterplots naast elkaar. Gebruik hiervoor de vooraf gedefinieerde functie compare_plot(), die de volgende argumenten accepteert: X, y, X_resampled, y_resampled, method=''. De functie plot je oorspronkelijke data in een scatterplot, samen met de geresamplede data ernaast.

Deze oefening maakt deel uit van de cursus

Fraudedetectie in Python

Bekijk cursus

Oefeninstructies

Print de value counts van onze oorspronkelijke labels, y. Let op: y is momenteel een Numpy-array, dus om value counts te gebruiken, zetten we y terug naar een pandas Series-object.
Herhaal de stap en print de value counts van y_resampled. Dit laat zien hoe de balans tussen de twee klassen is veranderd met SMOTE.
Gebruik de vooraf gedefinieerde functie compare_plot() op zowel onze oorspronkelijke data als onze geresamplede data om de scatterplots naast elkaar te zien.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Print the value_counts on the original labels y
print(pd.value_counts(pd.Series(____)))

# Print the value_counts
print(____(____(____)))

# Run compare_plot
compare_plot(____, ____, ____, ____, method='SMOTE')

Code bewerken en uitvoeren