Mettre en évidence des valeurs dans la distribution
Il est parfois nécessaire de transformer vos données pour obtenir une meilleure visualisation. Deux méthodes permettent de traiter les valeurs manquantes : .dropna() et .fillna(). Vous pouvez aussi supprimer les valeurs aberrantes en filtrant les entrées au-dessus ou en dessous d’un certain percentile, en appliquant une condition avec .quantile() à une colonne donnée.
Vous avez également vu dans la vidéo comment mettre en avant une valeur particulière sur un graphique en ajoutant une ligne verticale à la position x sur les axes :
Axes.axvline(x=0, color=None, ...)
Dans cet exercice, vous allez jeter un dernier coup d’œil à la distribution des revenus mondiaux, puis supprimer les valeurs au-dessus du 95e percentile, tracer la distribution et mettre en évidence la moyenne et la médiane. pandas sous pd, seaborn sous sns et matplotlib.pyplot sous plt ont été importés, et le DataFrame income des exercices précédents est disponible dans votre environnement de travail.
Cet exercice fait partie du cours
Importer et gérer des données financières en Python
Instructions
- Affectez la colonne
'Income per Capita'àinc_per_capita. - Filtrez pour ne conserver que les lignes de
inc_per_capitainférieures au 95e percentile. Réassignez à la même variable. - Tracez un histogramme par défaut pour la version filtrée de
inc_per_capitaet affectez-le àax. - Utilisez
ax.axvline()aveccolor='b'pour mettre en évidence la moyenne deinc_per_capitaen bleu, - Utilisez
ax.axvline()aveccolor='g'pour mettre en évidence la médiane en vert. Affichez le résultat !
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create inc_per_capita
inc_per_capita = ____
# Filter out incomes above the 95th percentile
inc_per_capita = inc_per_capita[____ < ____]
# Plot histogram and assign to ax
ax = ____
# Highlight mean
ax.axvline(inc_per_capita.mean(), color='b')
# Highlight median
ax.axvline(inc_per_capita.median(), color='g')
# Show the plot
plt.show()