Applicare SMOTE
In questo esercizio, riequilibrerai i dati usando la Synthetic Minority Over-sampling Technique (SMOTE). A differenza di ROS, SMOTE non crea copie esatte delle osservazioni, ma genera nuovi campioni sintetici molto simili alle osservazioni esistenti della classe minoritaria. SMOTE è quindi un po' più sofisticato del semplice copiare osservazioni, quindi applichiamolo ai nostri dati delle carte di credito.
Il dataset df è disponibile e i pacchetti necessari per SMOTE sono già importati. Nel prossimo esercizio visualizzerai il risultato e lo confronterai con i dati originali, così potrai vedere chiaramente l'effetto dell'applicazione di SMOTE.
Questo esercizio fa parte del corso
Rilevamento delle frodi in Python
Istruzioni dell'esercizio
- Usa la funzione
prep_datasudfper creare le featureXe le etichettey. - Definisci il metodo di ricampionamento come SMOTE standard, nella variabile
method. - Usa
.fit_resample()sugliXeyoriginali per ottenere i nuovi dati ricampionati. - Traccia i dati ricampionati usando la funzione
plot_data().
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
from imblearn.over_sampling import SMOTE
# Run the prep_data function
X, y = ____(df)
# Define the resampling method
method = ____()
# Create the resampled feature set
X_resampled, y_resampled = method.____(____, ____)
# Plot the resampled data
plot_data(____, ____)