Comparer SMOTE aux données originales
Dans le dernier exercice, vous avez vu qu’utiliser SMOTE nous donne soudainement plus d’observations de la classe minoritaire. Comparons ces résultats à nos données d’origine pour bien comprendre ce qui s’est passé. Regardons à nouveau les effectifs de nos anciennes et nouvelles données, puis traçons côte à côte deux nuages de points des données. Vous utiliserez la fonction prédéfinie compare_plot() pour cela, qui prend les arguments suivants : X, y, X_resampled, y_resampled, method=''. La fonction trace vos données originales en nuage de points, ainsi que les données rééchantillonnées, côte à côte.
Cet exercice fait partie du cours
Détection de fraude en Python
Instructions
- Affichez les effectifs de nos étiquettes originales,
y. Notez queyest actuellement un tableau Numpy ; pour utiliser value_counts, nous allons réaffecteryen tant qu’objet Series de pandas. - Répétez l’étape et affichez les effectifs sur
y_resampled. Cela vous montre comment l’équilibre entre les deux classes a changé avec SMOTE. - Utilisez la fonction prédéfinie
compare_plot()appliquée à nos données originales ainsi qu’à nos données rééchantillonnées pour afficher les nuages de points côte à côte.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Print the value_counts on the original labels y
print(pd.value_counts(pd.Series(____)))
# Print the value_counts
print(____(____(____)))
# Run compare_plot
compare_plot(____, ____, ____, ____, method='SMOTE')