Confronta SMOTE con i dati originali

Nell’ultimo esercizio hai visto che usare SMOTE ci fornisce subito più osservazioni della classe minoritaria. Confrontiamo questi risultati con i nostri dati originali, per capire bene cosa è successo. Guardiamo di nuovo i conteggi dei valori dei nostri vecchi e nuovi dati e tracciamo i due scatter plot dei dati affiancati. Userai la funzione predefinita compare_plot(), che accetta i seguenti argomenti: X, y, X_resampled, y_resampled, method=''. La funzione disegna i tuoi dati originali in uno scatter plot, insieme ai dati ricampionati affiancati.

Questo esercizio fa parte del corso

Rilevamento delle frodi in Python

Visualizza corso

Istruzioni dell'esercizio

Stampa i conteggi dei valori delle etichette originali, y. Tieni presente che y è attualmente un array Numpy, quindi per usare i conteggi dei valori assegneremo y di nuovo come oggetto Series di pandas.
Ripeti il passaggio e stampa i conteggi dei valori su y_resampled. Questo ti mostra come è cambiato l’equilibrio tra le due classi con SMOTE.
Usa la funzione predefinita compare_plot() chiamandola sia sui dati originali sia su quelli ricampionati per vedere gli scatter plot affiancati.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Print the value_counts on the original labels y
print(pd.value_counts(pd.Series(____)))

# Print the value_counts
print(____(____(____)))

# Run compare_plot
compare_plot(____, ____, ____, ____, method='SMOTE')

Modifica ed esegui il codice