Werte in der Verteilung hervorheben
Manchmal musst du deine Daten anpassen, um eine bessere Visualisierung zu erhalten. Zwei Methoden, die mit fehlenden Werten umgehen, sind .dropna() und .fillna(). Ausreißer kannst du entfernen, indem du Einträge oberhalb oder unterhalb eines bestimmten Perzentils herausfilterst. Dazu wendest du mit .quantile() eine Bedingung auf eine bestimmte Spalte an.
Im Video hast du außerdem gesehen, wie du einen bestimmten Wert in einem Plot hervorheben kannst, indem du eine vertikale Linie an Position x über die Achsen einfügst:
Axes.axvline(x=0, color=None, ...)
In dieser Übung wirfst du einen letzten Blick auf die weltweite Einkommensverteilung, entfernst dann Ausreißer oberhalb des 95. Perzentils, plottest die Verteilung und hebst sowohl den Mittelwert als auch den Median hervor. pandas als pd, seaborn als sns und matplotlib.pyplot als plt sind importiert, und das DataFrame income aus den vorherigen Übungen ist in deiner Arbeitsumgebung verfügbar.
Diese Übung ist Teil des Kurses
Importing and Managing Financial Data in Python
Anleitung zur Übung
- Weise die Spalte
'Income per Capita'der Variableinc_per_capitazu. - Filtere so, dass nur die Zeilen in
inc_per_capitaerhalten bleiben, die unter dem 95. Perzentil liegen. Weisen derselben Variable erneut zu. - Erstelle ein Standard-Histogramm für die gefilterte Version von
inc_per_capitaund weise esaxzu. - Nutze
ax.axvline()mitcolor='b', um den Mittelwert voninc_per_capitablau hervorzuheben, - Nutze
ax.axvline()mitcolor='g', um den Median grün hervorzuheben. Zeige das Ergebnis!
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Create inc_per_capita
inc_per_capita = ____
# Filter out incomes above the 95th percentile
inc_per_capita = inc_per_capita[____ < ____]
# Plot histogram and assign to ax
ax = ____
# Highlight mean
ax.axvline(inc_per_capita.mean(), color='b')
# Highlight median
ax.axvline(inc_per_capita.median(), color='g')
# Show the plot
plt.show()