Esplorare il modo tradizionale di individuare le frodi
In questo esercizio proverai a trovare casi di frode nel nostro insieme di dati sulle carte di credito nel "vecchio modo". Per prima cosa definirai dei valori soglia usando statistiche comuni, per separare frode e non frode. Poi userai queste soglie sulle tue feature per rilevare le frodi. Questo è un approccio comune nei team di fraud analytics.
Le soglie statistiche sono spesso determinate osservando i valori di media delle osservazioni. Iniziamo verificando se le medie delle feature differiscono tra i casi di frode e non frode. Poi userai queste informazioni per creare soglie di buon senso. Infine, controllerai quanto bene questo funziona nel rilevamento delle frodi.
pandas è già stato importato come pd.
Questo esercizio fa parte del corso
Rilevamento delle frodi in Python
Istruzioni dell'esercizio
- Usa
groupby()per raggrupparedfperClasse ottenere la media delle feature. - Crea la condizione
V1minore di -3 eV3minore di -5 come criterio per contrassegnare i casi di frode. - Come misura di performance, usa la funzione
crosstabdipandasper confrontare i casi di frode contrassegnati con i casi di frode reali.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Get the mean for each group
____.____(____).mean()
# Implement a rule for stating which cases are flagged as fraud
df['flag_as_fraud'] = np.where(np.logical_and(______), 1, 0)
# Create a crosstab of flagged fraud cases versus the actual fraud cases
print(____(df.Class, df.flag_as_fraud, rownames=['Actual Fraud'], colnames=['Flagged Fraud']))