Visualiser les motifs dans les données
La première étape avant de commencer le modélisation consiste à explorer vos données. Commençons par examiner votre jeu de données et visualiser différents motifs entre les échantillons frauduleux et réguliers. De manière exceptionnelle, c’est vous qui allez construire la visualisation !
Le jeu de données transfers contient des virements, dont certains ont été identifiés comme frauduleux. La colonne fraud_flag indique si la transaction est frauduleuse (fraud_flag = 1) ou non (fraud_flag = 0). Ce jeu de données et le package ggplot2 sont déjà chargés dans votre environnement de travail.
Cet exercice fait partie du cours
Détection de fraude en R
Instructions
- Tracez la colonne
amountcomme variable indépendante sur l’axe des x, et la colonneorig_balance_before(le solde du compte de l’émetteur avant l’enregistrement du virement) comme variable dépendante sur l’axe des y. - Définissez la couleur et la forme des points en fonction de la valeur de la colonne
fraud_flag.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Make a scatter plot
ggplot(transfers, aes(x = ___, y = ___)) +
geom_point(aes(color = ___, shape = ___)) +
scale_color_manual(values = c('dodgerblue', 'red'))