Ergebnisse prüfen
In dieser Übung wirst du die Ergebnisse deines DBSCAN-Modells zur Betrugserkennung prüfen. In der Praxis hat man oft keine verlässlichen Labels – hier kann ein Fraud-Analyst helfen, die Ergebnisse zu validieren. Er/sie kann deine Resultate prüfen und sehen, ob die von dir markierten Fälle tatsächlich verdächtig sind. Du kannst außerdem historisch bekannte Fälle von Betrug heranziehen und sehen, ob dein Modell sie markiert.
Hier wirst du die Fraud-Labels verwenden, um deine Modellergebnisse zu überprüfen. Die vorhergesagten Cluster-Nummern findest du unter pred_labels, die ursprünglichen Fraud-Labels unter labels.
Diese Übung ist Teil des Kurses
Betrugserkennung mit Python
Anleitung zur Übung
- Erstelle einen DataFrame, der die Cluster-Nummern mit den tatsächlichen Labels kombiniert. Das wurde bereits für dich erledigt.
- Erstelle eine Bedingung, die Betrug für die drei kleinsten Cluster markiert: Cluster 21, 17 und 9.
- Erstelle eine Kreuztabelle aus den tatsächlichen Fraud-Labels und den neu erstellten vorhergesagten Fraud-Labels.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Create a dataframe of the predicted cluster numbers and fraud labels
df = pd.DataFrame({'clusternr':pred_labels,'fraud':labels})
# Create a condition flagging fraud for the smallest clusters
df['predicted_fraud'] = np.where((df['clusternr']==21)|(____)|(____),1 , 0)
# Run a crosstab on the results
print(pd.crosstab(df['fraud'], df['____'], rownames=['Actual Fraud'], colnames=['Flagged Fraud']))