Vérifier les résultats
Dans cet exercice, vous allez vérifier les résultats de votre modèle de détection de fraude basé sur DBSCAN. En pratique, vous n’avez pas toujours des étiquettes fiables, et c’est là qu’un analyste fraude peut vous aider à valider les résultats. Il/elle peut passer en revue vos sorties et vérifier si les cas signalés sont réellement suspects. Vous pouvez aussi vérifier des cas de fraude connus historiquement pour voir si votre modèle les détecte.
Ici, vous allez utiliser les étiquettes de fraude pour contrôler les résultats de votre modèle. Les numéros de cluster prédits sont disponibles dans pred_labels, et les étiquettes de fraude d’origine dans labels.
Cet exercice fait partie du cours
Détection de fraude en Python
Instructions
- Créez un dataframe combinant les numéros de cluster avec les étiquettes réelles. Cela a été fait pour vous.
- Créez une condition qui signale la fraude pour les trois plus petits clusters : clusters 21, 17 et 9.
- Créez une table de contingence (crosstab) à partir des étiquettes de fraude réelles et des nouvelles étiquettes de fraude prédites.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create a dataframe of the predicted cluster numbers and fraud labels
df = pd.DataFrame({'clusternr':pred_labels,'fraud':labels})
# Create a condition flagging fraud for the smallest clusters
df['predicted_fraud'] = np.where((df['clusternr']==21)|(____)|(____),1 , 0)
# Run a crosstab on the results
print(pd.crosstab(df['fraud'], df['____'], rownames=['Actual Fraud'], colnames=['Flagged Fraud']))