Verifica dei risultati
In questo esercizio andrai a verificare i risultati del tuo modello di rilevamento frodi con DBSCAN. Nella pratica, spesso non hai etichette affidabili ed è qui che un analyst antifrode può aiutarti a validare i risultati. Può controllare i tuoi output e vedere se i casi che hai segnalato sono davvero sospetti. Puoi anche verificare i casi storicamente noti di frode e vedere se il tuo modello li segnala.
In questo caso, userai le etichette di frode per controllare i risultati del modello. I numeri di cluster previsti sono disponibili in pred_labels, così come le etichette originali di frode in labels.
Questo esercizio fa parte del corso
Rilevamento delle frodi in Python
Istruzioni dell'esercizio
- Crea un dataframe che combini i numeri di cluster con le etichette reali. Questo è già stato fatto per te.
- Crea una condizione che segnali frode per i tre cluster più piccoli: cluster 21, 17 e 9.
- Crea una crosstab a partire dalle etichette reali di frode e dalle nuove etichette di frode previste.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Create a dataframe of the predicted cluster numbers and fraud labels
df = pd.DataFrame({'clusternr':pred_labels,'fraud':labels})
# Create a condition flagging fraud for the smallest clusters
df['predicted_fraud'] = np.where((df['clusternr']==21)|(____)|(____),1 , 0)
# Run a crosstab on the results
print(pd.crosstab(df['fraud'], df['____'], rownames=['Actual Fraud'], colnames=['Flagged Fraud']))