Comparer SMOTE aux données originales

Dans le dernier exercice, vous avez vu qu’utiliser SMOTE nous donne soudainement plus d’observations de la classe minoritaire. Comparons ces résultats à nos données d’origine pour bien comprendre ce qui s’est passé. Regardons à nouveau les effectifs de nos anciennes et nouvelles données, puis traçons côte à côte deux nuages de points des données. Vous utiliserez la fonction prédéfinie compare_plot() pour cela, qui prend les arguments suivants : X, y, X_resampled, y_resampled, method=''. La fonction trace vos données originales en nuage de points, ainsi que les données rééchantillonnées, côte à côte.

Cet exercice fait partie du cours

<cours>Détection de fraude en Python</cours>

Voir le cours

Instructions de l’exercice

Affichez les effectifs de nos étiquettes originales, y. Notez que y est actuellement un tableau Numpy ; pour utiliser value_counts, nous allons réaffecter y en tant qu’objet Series de pandas.
Répétez l’étape et affichez les effectifs sur y_resampled. Cela vous montre comment l’équilibre entre les deux classes a changé avec SMOTE.
Utilisez la fonction prédéfinie compare_plot() appliquée à nos données originales ainsi qu’à nos données rééchantillonnées pour afficher les nuages de points côte à côte.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Print the value_counts on the original labels y
print(pd.value_counts(pd.Series(____)))

# Print the value_counts
print(____(____(____)))

# Run compare_plot
compare_plot(____, ____, ____, ____, method='SMOTE')

Modifier et exécuter le code