Vérifier les résultats

Dans cet exercice, vous allez vérifier les résultats de votre modèle de détection de fraude basé sur DBSCAN. En pratique, vous n’avez pas toujours des étiquettes fiables, et c’est là qu’un analyste fraude peut vous aider à valider les résultats. Il/elle peut passer en revue vos sorties et vérifier si les cas signalés sont réellement suspects. Vous pouvez aussi vérifier des cas de fraude connus historiquement pour voir si votre modèle les détecte.

Ici, vous allez utiliser les étiquettes de fraude pour contrôler les résultats de votre modèle. Les numéros de cluster prédits sont disponibles dans pred_labels, et les étiquettes de fraude d’origine dans labels.

Cet exercice fait partie du cours

Détection de fraude en Python

Afficher le cours

Instructions

Créez un dataframe combinant les numéros de cluster avec les étiquettes réelles. Cela a été fait pour vous.
Créez une condition qui signale la fraude pour les trois plus petits clusters : clusters 21, 17 et 9.
Créez une table de contingence (crosstab) à partir des étiquettes de fraude réelles et des nouvelles étiquettes de fraude prédites.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Create a dataframe of the predicted cluster numbers and fraud labels 
df = pd.DataFrame({'clusternr':pred_labels,'fraud':labels})

# Create a condition flagging fraud for the smallest clusters 
df['predicted_fraud'] = np.where((df['clusternr']==21)|(____)|(____),1 , 0)

# Run a crosstab on the results 
print(pd.crosstab(df['fraud'], df['____'], rownames=['Actual Fraud'], colnames=['Flagged Fraud']))

Modifier et exécuter le code