1. Nauka
  2. /
  3. Kursy
  4. /
  5. Prywatność danych i anonimizacja w Pythonie

Connected

ćwiczenie

Eksploracja rozkładu danych

Kiedy chcemy zanonimizować zbiór danych poprzez próbkowanie w realistyczny sposób, musimy zdobyć pewną wiedzę dziedzinową i statystyczną na temat tych danych. Jak już wiemy, kluczowe jest znalezienie rozkładu prawdopodobieństwa interesującej nas kolumny.

W tym ćwiczeniu przyjrzysz się kolumnie business_travel z uproszczonej wersji zbioru danych IBM HR.

DataFrame został zaimportowany jako hr, a numpy jako np. Jak wspomniano w poprzednim rozdziale, pandas został zaimportowany jako pd – dotyczy to tego i wszystkich kolejnych ćwiczeń w kursie.

Instrukcje 1/3

undefined XP
  • 1
    • Wyświetl częstości bezwzględne każdej unikalnej wartości w kolumnie business_travel.
  • 2
    • Wyświetl rozkład prawdopodobieństwa zmiennej business_travel (tzn. częstości względne każdej kategorii).
  • 3
    • Wygeneruj wykres słupkowy, aby zwizualizować częstości bezwzględne każdej kategorii w kolumnie business_travel, korzystając z wyniku metody .value_counts().