Esplorare il modo tradizionale di individuare le frodi

In questo esercizio proverai a trovare casi di frode nel nostro insieme di dati sulle carte di credito nel "vecchio modo". Per prima cosa definirai dei valori soglia usando statistiche comuni, per separare frode e non frode. Poi userai queste soglie sulle tue feature per rilevare le frodi. Questo è un approccio comune nei team di fraud analytics.

Le soglie statistiche sono spesso determinate osservando i valori di media delle osservazioni. Iniziamo verificando se le medie delle feature differiscono tra i casi di frode e non frode. Poi userai queste informazioni per creare soglie di buon senso. Infine, controllerai quanto bene questo funziona nel rilevamento delle frodi.

pandas è già stato importato come pd.

Questo esercizio fa parte del corso

Rilevamento delle frodi in Python

Visualizza corso

Istruzioni dell'esercizio

Usa groupby() per raggruppare df per Class e ottenere la media delle feature.
Crea la condizione V1 minore di -3 e V3 minore di -5 come criterio per contrassegnare i casi di frode.
Come misura di performance, usa la funzione crosstab di pandas per confrontare i casi di frode contrassegnati con i casi di frode reali.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Get the mean for each group
____.____(____).mean()

# Implement a rule for stating which cases are flagged as fraud
df['flag_as_fraud'] = np.where(np.logical_and(______), 1, 0)

# Create a crosstab of flagged fraud cases versus the actual fraud cases
print(____(df.Class, df.flag_as_fraud, rownames=['Actual Fraud'], colnames=['Flagged Fraud']))

Modifica ed esegui il codice