Rappresentare i tuoi dati
Dall'esercizio precedente sappiamo che il rapporto tra osservazioni di frode e non frode è molto basso. Puoi intervenire, ad esempio, ri-campionando i dati, come spiegato nel prossimo video.
In questo esercizio, guarderai i dati e visualizzerai il rapporto tra frode e non frode. Nella tua analisi delle frodi è sempre un ottimo punto di partenza osservare prima i dati, prima di apportare qualsiasi modifica.
Inoltre, quando parli con i colleghi, un grafico spesso chiarisce subito che stiamo lavorando con dati fortemente sbilanciati.
Creiamo un grafico per visualizzare il rapporto tra punti dati di frode e non frode nel dataset df.
La funzione prep_data() è già caricata nel tuo workspace, così come matplotlib.pyplot come plt.
Questo esercizio fa parte del corso
Rilevamento delle frodi in Python
Istruzioni dell'esercizio
Definisci la funzione
plot_data(X, y), che rappresenti in modo chiaro l'insieme di featureXcon le etichetteyin uno scatter plot. Questo è già stato fatto per te.Usa la funzione
prep_data()sul tuo datasetdfper creare l'insieme di featureXe le etichettey.Esegui la funzione
plot_data()sui nuoviXeyper visualizzare i risultati.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Define a function to create a scatter plot of our data and labels
def plot_data(X, y):
plt.scatter(X[y == 0, 0], X[y == 0, 1], label="Class #0", alpha=0.5, linewidth=0.15)
plt.scatter(X[y == 1, 0], X[y == 1, 1], label="Class #1", alpha=0.5, linewidth=0.15, c='r')
plt.legend()
return plt.show()
# Create X and y from the prep_data function
X, y = prep_data(____)
# Plot our data by running our plot data function on X and y
____(X, y)