Resultaten controleren

In deze oefening ga je de resultaten controleren van je DBSCAN-fraudedetectiemodel. In de praktijk heb je vaak geen betrouwbare labels en dan kan een fraude-analist helpen om de resultaten te valideren. Hij/zij kan je resultaten nakijken en beoordelen of de gevallen die je hebt geflagd inderdaad verdacht zijn. Je kunt ook historisch bekende fraudezaken controleren en kijken of je model die markeert.

In dit geval gebruik je de fraudelabels om je modelresultaten te controleren. De voorspelde clusternummers staan in pred_labels en de oorspronkelijke fraudelabels in labels.

Deze oefening maakt deel uit van de cursus

Fraudedetectie in Python

Bekijk cursus

Oefeninstructies

Maak een dataframe waarin je de clusternummers combineert met de werkelijke labels. Dit is al voor je gedaan.
Maak een voorwaarde die fraude markeert voor de drie kleinste clusters: clusters 21, 17 en 9.
Maak een kruistabel van de werkelijke fraudelabels met de nieuw aangemaakte predictie-fraudelabels.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Create a dataframe of the predicted cluster numbers and fraud labels 
df = pd.DataFrame({'clusternr':pred_labels,'fraud':labels})

# Create a condition flagging fraud for the smallest clusters 
df['predicted_fraud'] = np.where((df['clusternr']==21)|(____)|(____),1 , 0)

# Run a crosstab on the results 
print(pd.crosstab(df['fraud'], df['____'], rownames=['Actual Fraud'], colnames=['Flagged Fraud']))

Code bewerken en uitvoeren