Utiliser des statistiques pour définir un comportement normal

Dans les exercices précédents, nous avons vu que la fraude est plus fréquente dans certaines catégories de transactions, mais qu’il n’existe pas de manière évidente de segmenter nos données, par exemple en groupes d’âge. Cette fois, examinons les montants moyens dépensés dans les transactions normales par rapport aux transactions frauduleuses. Cela vous donne une idée de la façon dont les transactions frauduleuses diffèrent structurellement des transactions normales.

Cet exercice fait partie du cours

<cours>Détection de fraude en Python</cours>

Voir le cours

Instructions de l’exercice

Créez deux nouveaux dataframes à partir des observations de fraude et de non-fraude. Repérez les données dans df avec .loc et appliquez les conditions « où fraud vaut 1 » et « où fraud vaut 0 » pour créer les nouveaux dataframes.
Tracez la colonne amount des dataframes nouvellement créés dans des histogrammes et attribuez respectivement les étiquettes fraud et nonfraud aux graphiques.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Create two dataframes with fraud and non-fraud data 
df_fraud = df.____[df.____ == ____] 
df_non_fraud = df.____[df.____ == ____]

# Plot histograms of the amounts in fraud and non-fraud data 
plt.hist(____.____, alpha=0.5, label='____')
plt.hist(____.____, alpha=0.5, label='____')
plt.legend()
plt.show()

Modifier et exécuter le code