Confronta SMOTE con i dati originali
Nell’ultimo esercizio hai visto che usare SMOTE ci fornisce subito più osservazioni della classe minoritaria. Confrontiamo questi risultati con i nostri dati originali, per capire bene cosa è successo. Guardiamo di nuovo i conteggi dei valori dei nostri vecchi e nuovi dati e tracciamo i due scatter plot dei dati affiancati. Userai la funzione predefinita compare_plot(), che accetta i seguenti argomenti: X, y, X_resampled, y_resampled, method=''. La funzione disegna i tuoi dati originali in uno scatter plot, insieme ai dati ricampionati affiancati.
Questo esercizio fa parte del corso
Rilevamento delle frodi in Python
Istruzioni dell'esercizio
- Stampa i conteggi dei valori delle etichette originali,
y. Tieni presente cheyè attualmente un array Numpy, quindi per usare i conteggi dei valori assegneremoydi nuovo come oggetto Series di pandas. - Ripeti il passaggio e stampa i conteggi dei valori su
y_resampled. Questo ti mostra come è cambiato l’equilibrio tra le due classi con SMOTE. - Usa la funzione predefinita
compare_plot()chiamandola sia sui dati originali sia su quelli ricampionati per vedere gli scatter plot affiancati.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Print the value_counts on the original labels y
print(pd.value_counts(pd.Series(____)))
# Print the value_counts
print(____(____(____)))
# Run compare_plot
compare_plot(____, ____, ____, ____, method='SMOTE')