Wyróżnianie wartości w rozkładzie

Czasem trzeba przetworzyć dane, aby uzyskać lepszą wizualizację. Dwie metody, które pomogą poradzić sobie z brakującymi wartościami, to .dropna() i .fillna(). Można też usunąć wartości odstające, filtrując wpisy powyżej lub poniżej określonego percentyla – wystarczy zastosować warunek z .quantile() do wybranej kolumny.

W wideo pokazano również, jak wyróżnić konkretną wartość na wykresie, dodając pionową linię w pozycji x na osiach:

Axes.axvline(x=0, color=None, ...)

W tym ćwiczeniu przyjrzysz się globalnemu rozkładowi dochodów, usuniesz wartości odstające powyżej 95. percentyla, wykreślisz rozkład i zaznaczysz na nim zarówno średnią, jak i medianę. Biblioteki pandas jako pd, seaborn jako sns oraz matplotlib.pyplot jako plt zostały już zaimportowane, a ramka danych income z poprzednich ćwiczeń jest dostępna w twoim środowisku pracy.

Przypisz kolumnę 'Income per Capita' do zmiennej inc_per_capita.
Przefiltruj dane tak, aby zachować tylko te wiersze inc_per_capita, których wartości są niższe od 95. percentyla. Zapisz wynik do tej samej zmiennej.
Wykreśl domyślny histogram dla przefiltrowanej wersji inc_per_capita i przypisz go do ax.
Użyj ax.axvline() z argumentem color='b', aby zaznaczyć średnią inc_per_capita na niebiesko.
Użyj ax.axvline() z argumentem color='g', aby zaznaczyć medianę na zielono. Wyświetl wynik!

Exercise

Wyróżnianie wartości w rozkładzie

Instructions

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}Exercise

Instructions

Exercise