Visualiser vos données
D’après l’exercice précédent, nous savons que le ratio d’observations frauduleuses par rapport aux non frauduleuses est très faible. Vous pouvez agir dessus, par exemple en rééchantillonnant les données, comme expliqué dans la prochaine vidéo.
Dans cet exercice, vous allez examiner les données et visualiser le ratio fraude/non-fraude. C’est toujours un bon point de départ en analyse de fraude : regardez d’abord vos données avant d’y apporter des modifications.
De plus, lorsque vous en discutez avec vos collègues, un graphique montre souvent clairement que l’on a affaire à des données fortement déséquilibrées.
Créons un graphique pour visualiser le ratio entre les points de données fraude et non-fraude dans le jeu de données df.
La fonction prep_data() est déjà chargée dans votre environnement, ainsi que matplotlib.pyplot sous l’alias plt.
Cet exercice fait partie du cours
Détection de fraude en Python
Instructions
Définissez la fonction
plot_data(X, y), qui tracera proprement l’ensemble de caractéristiquesXavec les étiquettesyen nuage de points. Cela a été fait pour vous.Utilisez la fonction
prep_data()sur votre jeu de donnéesdfpour créer l’ensemble de caractéristiquesXet les étiquettesy.Exécutez la fonction
plot_data()sur vos nouveauxXetypour visualiser les résultats.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Define a function to create a scatter plot of our data and labels
def plot_data(X, y):
plt.scatter(X[y == 0, 0], X[y == 0, 1], label="Class #0", alpha=0.5, linewidth=0.15)
plt.scatter(X[y == 1, 0], X[y == 1, 1], label="Class #1", alpha=0.5, linewidth=0.15, c='r')
plt.legend()
return plt.show()
# Create X and y from the prep_data function
X, y = prep_data(____)
# Plot our data by running our plot data function on X and y
____(X, y)