Usare le statistiche per definire il comportamento normale
Negli esercizi precedenti abbiamo visto che il fraud è più frequente in alcune categorie di transazioni, ma non c'è un modo evidente di segmentare i dati, ad esempio, per fasce d'età. Questa volta, analizziamo gli importi medi spesi nelle transazioni normali rispetto a quelle fraudolente. Questo ti aiuterà a capire in che modo le transazioni fraudolente differiscono strutturalmente da quelle normali.
Questo esercizio fa parte del corso
Rilevamento delle frodi in Python
Istruzioni dell'esercizio
- Crea due nuovi dataframe dalle osservazioni di tipo fraud e non-fraud. Seleziona i dati in
dfcon.loce usa come condizioni "dove fraud è 1" e "dove fraud è 0" per creare i nuovi dataframe. - Rappresenta la colonna
amountdei nuovi dataframe nelle funzioni per l'istogramma e assegna rispettivamente le etichettefraudenonfraudai grafici.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Create two dataframes with fraud and non-fraud data
df_fraud = df.____[df.____ == ____]
df_non_fraud = df.____[df.____ == ____]
# Plot histograms of the amounts in fraud and non-fraud data
plt.hist(____.____, alpha=0.5, label='____')
plt.hist(____.____, alpha=0.5, label='____')
plt.legend()
plt.show()