Eksploracja rozkładu danych

Kiedy chcemy zanonimizować zbiór danych poprzez próbkowanie w realistyczny sposób, musimy zdobyć pewną wiedzę dziedzinową i statystyczną na temat tych danych. Jak już wiemy, kluczowe jest znalezienie rozkładu prawdopodobieństwa interesującej nas kolumny.

W tym ćwiczeniu przyjrzysz się kolumnie business_travel z uproszczonej wersji zbioru danych IBM HR.

DataFrame został zaimportowany jako hr, a numpy jako np. Jak wspomniano w poprzednim rozdziale, pandas został zaimportowany jako pd – dotyczy to tego i wszystkich kolejnych ćwiczeń w kursie.

1
- Wyświetl częstości bezwzględne każdej unikalnej wartości w kolumnie business_travel.

2
- Wyświetl rozkład prawdopodobieństwa zmiennej business_travel (tzn. częstości względne każdej kategorii).
3
- Wygeneruj wykres słupkowy, aby zwizualizować częstości bezwzględne każdej kategorii w kolumnie business_travel, korzystając z wyniku metody .value_counts().

ćwiczenie

Eksploracja rozkładu danych

Instrukcje 1/3

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje 1/3

ćwiczenie