Appliquer SMOTE

Dans cet exercice, vous allez rééquilibrer nos données avec la Synthetic Minority Over-sampling Technique (SMOTE). Contrairement à ROS, SMOTE ne crée pas des copies exactes des observations, mais génère de nouveaux échantillons synthétiques qui sont très proches des observations existantes de la classe minoritaire. SMOTE est donc un peu plus sophistiqué que le simple copiage d’observations. Appliquons-le à nos données de cartes de crédit. Le jeu de données df est disponible et les packages nécessaires à SMOTE sont importés. Dans l’exercice suivant, vous visualiserez le résultat et le comparerez aux données d’origine, afin de voir très clairement l’effet de SMOTE.

Cet exercice fait partie du cours

<cours>Détection de fraude en Python</cours>

Voir le cours

Instructions de l’exercice

Utilisez la fonction prep_data sur df pour créer les variables explicatives X et les étiquettes y.
Définissez la méthode de rééchantillonnage comme un SMOTE standard, dans la variable method.
Utilisez .fit_resample() sur les X et y d’origine pour obtenir de nouvelles données rééchantillonnées.
Tracez les données rééchantillonnées avec la fonction plot_data().

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

from imblearn.over_sampling import SMOTE

# Run the prep_data function
X, y = ____(df)

# Define the resampling method
method = ____()

# Create the resampled feature set
X_resampled, y_resampled = method.____(____, ____)

# Plot the resampled data
plot_data(____, ____)

Modifier et exécuter le code