Utiliser des statistiques pour définir un comportement normal
Dans les exercices précédents, nous avons vu que la fraude est plus fréquente dans certaines catégories de transactions, mais qu’il n’existe pas de manière évidente de segmenter nos données, par exemple en groupes d’âge. Cette fois, examinons les montants moyens dépensés dans les transactions normales par rapport aux transactions frauduleuses. Cela vous donne une idée de la façon dont les transactions frauduleuses diffèrent structurellement des transactions normales.
Cet exercice fait partie du cours
Détection de fraude en Python
Instructions
- Créez deux nouveaux dataframes à partir des observations de fraude et de non-fraude. Repérez les données dans
dfavec.locet appliquez les conditions « où fraud vaut 1 » et « où fraud vaut 0 » pour créer les nouveaux dataframes. - Tracez la colonne
amountdes dataframes nouvellement créés dans des histogrammes et attribuez respectivement les étiquettesfraudetnonfraudaux graphiques.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create two dataframes with fraud and non-fraud data
df_fraud = df.____[df.____ == ____]
df_non_fraud = df.____[df.____ == ____]
# Plot histograms of the amounts in fraud and non-fraud data
plt.hist(____.____, alpha=0.5, label='____')
plt.hist(____.____, alpha=0.5, label='____')
plt.legend()
plt.show()