Waarden in de verdeling markeren
Soms moet je je data bewerken om een betere visualisatie te maken. Twee methoden die met ontbrekende waarden kunnen omgaan zijn .dropna() en .fillna(). Je kunt ook uitschieters verwijderen door rijen te filteren die boven of onder een bepaald percentiel liggen, door een voorwaarde met .quantile() toe te passen op een specifieke kolom.
Je zag in de video ook hoe je een specifieke waarde in een plot kunt benadrukken door een verticale lijn op positie x over de assen toe te voegen:
Axes.axvline(x=0, color=None, ...)
In deze oefening kijk je nog één keer naar de wereldwijde inkomensverdeling. Vervolgens verwijder je uitschieters boven het 95e percentiel, plot je de verdeling en markeer je zowel het gemiddelde als de mediaan. pandas als pd, seaborn als sns en matplotlib.pyplot als plt zijn geïmporteerd, en de DataFrame income uit eerdere oefeningen staat klaar in je werkruimte.
Deze oefening maakt deel uit van de cursus
Financiële data importeren en beheren in Python
Oefeninstructies
- Wijs de kolom
'Income per Capita'toe aaninc_per_capita. - Filter zodat je alleen de rijen in
inc_per_capitaoverhoudt die lager zijn dan het 95e percentiel. Wijs opnieuw toe aan dezelfde variabele. - Plot een standaard histogram voor de gefilterde versie van
inc_per_capitaen ken dit toe aanax. - Gebruik
ax.axvline()metcolor='b'om het gemiddelde vaninc_per_capitain blauw te markeren, - Gebruik
ax.axvline()metcolor='g'om de mediaan in groen te markeren. Laat het resultaat zien!
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Create inc_per_capita
inc_per_capita = ____
# Filter out incomes above the 95th percentile
inc_per_capita = inc_per_capita[____ < ____]
# Plot histogram and assign to ax
ax = ____
# Highlight mean
ax.axvline(inc_per_capita.mean(), color='b')
# Highlight median
ax.axvline(inc_per_capita.median(), color='g')
# Show the plot
plt.show()