Utiliser des statistiques pour définir un comportement normal
Dans les exercices précédents, nous avons vu que la fraude est plus fréquente dans certaines catégories de transactions, mais qu’il n’existe pas de manière évidente de segmenter nos données, par exemple en groupes d’âge. Cette fois, examinons les montants moyens dépensés dans les transactions normales par rapport aux transactions frauduleuses. Cela vous donne une idée de la façon dont les transactions frauduleuses diffèrent structurellement des transactions normales.
Cet exercice fait partie du cours
<cours>Détection de fraude en Python</cours>Instructions de l’exercice
- Créez deux nouveaux dataframes à partir des observations de fraude et de non-fraude. Repérez les données dans
dfavec.locet appliquez les conditions « où fraud vaut 1 » et « où fraud vaut 0 » pour créer les nouveaux dataframes. - Tracez la colonne
amountdes dataframes nouvellement créés dans des histogrammes et attribuez respectivement les étiquettesfraudetnonfraudaux graphiques.
Exercice interactif pratique
Essayez cet exercice en complétant ce code d’exemple.
# Create two dataframes with fraud and non-fraud data
df_fraud = df.____[df.____ == ____]
df_non_fraud = df.____[df.____ == ____]
# Plot histograms of the amounts in fraud and non-fraud data
plt.hist(____.____, alpha=0.5, label='____')
plt.hist(____.____, alpha=0.5, label='____')
plt.legend()
plt.show()