Resultaten controleren
In deze oefening ga je de resultaten controleren van je DBSCAN-fraudedetectiemodel. In de praktijk heb je vaak geen betrouwbare labels en dan kan een fraude-analist helpen om de resultaten te valideren. Hij/zij kan je resultaten nakijken en beoordelen of de gevallen die je hebt geflagd inderdaad verdacht zijn. Je kunt ook historisch bekende fraudezaken controleren en kijken of je model die markeert.
In dit geval gebruik je de fraudelabels om je modelresultaten te controleren. De voorspelde clusternummers staan in pred_labels en de oorspronkelijke fraudelabels in labels.
Deze oefening maakt deel uit van de cursus
Fraudedetectie in Python
Oefeninstructies
- Maak een dataframe waarin je de clusternummers combineert met de werkelijke labels. Dit is al voor je gedaan.
- Maak een voorwaarde die fraude markeert voor de drie kleinste clusters: clusters 21, 17 en 9.
- Maak een kruistabel van de werkelijke fraudelabels met de nieuw aangemaakte predictie-fraudelabels.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Create a dataframe of the predicted cluster numbers and fraud labels
df = pd.DataFrame({'clusternr':pred_labels,'fraud':labels})
# Create a condition flagging fraud for the smallest clusters
df['predicted_fraud'] = np.where((df['clusternr']==21)|(____)|(____),1 , 0)
# Run a crosstab on the results
print(pd.crosstab(df['fraud'], df['____'], rownames=['Actual Fraud'], colnames=['Flagged Fraud']))