CommencerCommencer gratuitement

Mettre en évidence des valeurs dans la distribution

Il est parfois nécessaire de transformer vos données pour obtenir une meilleure visualisation. Deux méthodes permettent de traiter les valeurs manquantes : .dropna() et .fillna(). Vous pouvez aussi supprimer les valeurs aberrantes en filtrant les entrées au-dessus ou en dessous d’un certain percentile, en appliquant une condition avec .quantile() à une colonne donnée.

Vous avez également vu dans la vidéo comment mettre en avant une valeur particulière sur un graphique en ajoutant une ligne verticale à la position x sur les axes :

Axes.axvline(x=0, color=None, ...)

Dans cet exercice, vous allez jeter un dernier coup d’œil à la distribution des revenus mondiaux, puis supprimer les valeurs au-dessus du 95e percentile, tracer la distribution et mettre en évidence la moyenne et la médiane. pandas sous pd, seaborn sous sns et matplotlib.pyplot sous plt ont été importés, et le DataFrame income des exercices précédents est disponible dans votre environnement de travail.

Cet exercice fait partie du cours

Importer et gérer des données financières en Python

Afficher le cours

Instructions

  • Affectez la colonne 'Income per Capita' à inc_per_capita.
  • Filtrez pour ne conserver que les lignes de inc_per_capita inférieures au 95e percentile. Réassignez à la même variable.
  • Tracez un histogramme par défaut pour la version filtrée de inc_per_capita et affectez-le à ax.
  • Utilisez ax.axvline() avec color='b' pour mettre en évidence la moyenne de inc_per_capita en bleu,
  • Utilisez ax.axvline() avec color='g' pour mettre en évidence la médiane en vert. Affichez le résultat !

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Create inc_per_capita
inc_per_capita = ____

# Filter out incomes above the 95th percentile
inc_per_capita = inc_per_capita[____ < ____]

# Plot histogram and assign to ax
ax = ____

# Highlight mean
ax.axvline(inc_per_capita.mean(), color='b')

# Highlight median
ax.axvline(inc_per_capita.median(), color='g')

# Show the plot
plt.show()
Modifier et exécuter le code