Appliquer SMOTE
Dans cet exercice, vous allez rééquilibrer nos données avec la Synthetic Minority Over-sampling Technique (SMOTE). Contrairement à ROS, SMOTE ne crée pas des copies exactes des observations, mais génère de nouveaux échantillons synthétiques qui sont très proches des observations existantes de la classe minoritaire. SMOTE est donc un peu plus sophistiqué que le simple copiage d’observations. Appliquons-le à nos données de cartes de crédit.
Le jeu de données df est disponible et les packages nécessaires à SMOTE sont importés. Dans l’exercice suivant, vous visualiserez le résultat et le comparerez aux données d’origine, afin de voir très clairement l’effet de SMOTE.
Cet exercice fait partie du cours
Détection de fraude en Python
Instructions
- Utilisez la fonction
prep_datasurdfpour créer les variables explicativesXet les étiquettesy. - Définissez la méthode de rééchantillonnage comme un SMOTE standard, dans la variable
method. - Utilisez
.fit_resample()sur lesXetyd’origine pour obtenir de nouvelles données rééchantillonnées. - Tracez les données rééchantillonnées avec la fonction
plot_data().
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
from imblearn.over_sampling import SMOTE
# Run the prep_data function
X, y = ____(df)
# Define the resampling method
method = ____()
# Create the resampled feature set
X_resampled, y_resampled = method.____(____, ____)
# Plot the resampled data
plot_data(____, ____)