Visualiser vos données

D’après l’exercice précédent, nous savons que le ratio d’observations frauduleuses par rapport aux non frauduleuses est très faible. Vous pouvez agir dessus, par exemple en rééchantillonnant les données, comme expliqué dans la prochaine vidéo.

Dans cet exercice, vous allez examiner les données et visualiser le ratio fraude/non-fraude. C’est toujours un bon point de départ en analyse de fraude : regardez d’abord vos données avant d’y apporter des modifications.

De plus, lorsque vous en discutez avec vos collègues, un graphique montre souvent clairement que l’on a affaire à des données fortement déséquilibrées. Créons un graphique pour visualiser le ratio entre les points de données fraude et non-fraude dans le jeu de données df.

La fonction prep_data() est déjà chargée dans votre environnement, ainsi que matplotlib.pyplot sous l’alias plt.

Cet exercice fait partie du cours

<cours>Détection de fraude en Python</cours>

Voir le cours

Instructions de l’exercice

Définissez la fonction plot_data(X, y), qui tracera proprement l’ensemble de caractéristiques X avec les étiquettes y en nuage de points. Cela a été fait pour vous.
Utilisez la fonction prep_data() sur votre jeu de données df pour créer l’ensemble de caractéristiques X et les étiquettes y.
Exécutez la fonction plot_data() sur vos nouveaux X et y pour visualiser les résultats.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Define a function to create a scatter plot of our data and labels
def plot_data(X, y):
	plt.scatter(X[y == 0, 0], X[y == 0, 1], label="Class #0", alpha=0.5, linewidth=0.15)
	plt.scatter(X[y == 1, 0], X[y == 1, 1], label="Class #1", alpha=0.5, linewidth=0.15, c='r')
	plt.legend()
	return plt.show()

# Create X and y from the prep_data function 
X, y = prep_data(____)

# Plot our data by running our plot data function on X and y
____(X, y)

Modifier et exécuter le code