Usare le statistiche per definire il comportamento normale

Negli esercizi precedenti abbiamo visto che il fraud è più frequente in alcune categorie di transazioni, ma non c'è un modo evidente di segmentare i dati, ad esempio, per fasce d'età. Questa volta, analizziamo gli importi medi spesi nelle transazioni normali rispetto a quelle fraudolente. Questo ti aiuterà a capire in che modo le transazioni fraudolente differiscono strutturalmente da quelle normali.

Questo esercizio fa parte del corso

Rilevamento delle frodi in Python

Visualizza corso

Istruzioni dell'esercizio

Crea due nuovi dataframe dalle osservazioni di tipo fraud e non-fraud. Seleziona i dati in df con .loc e usa come condizioni "dove fraud è 1" e "dove fraud è 0" per creare i nuovi dataframe.
Rappresenta la colonna amount dei nuovi dataframe nelle funzioni per l'istogramma e assegna rispettivamente le etichette fraud e nonfraud ai grafici.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Create two dataframes with fraud and non-fraud data 
df_fraud = df.____[df.____ == ____] 
df_non_fraud = df.____[df.____ == ____]

# Plot histograms of the amounts in fraud and non-fraud data 
plt.hist(____.____, alpha=0.5, label='____')
plt.hist(____.____, alpha=0.5, label='____')
plt.legend()
plt.show()

Modifica ed esegui il codice