Prozkoumej rozložení dat

Pokud chceme anonymizovat dataset tak, že z něj vzorkujeme data co nejrealističtějším způsobem, potřebujeme mít určité odborné a statistické znalosti o daných datech. Jak jsme viděli, klíčové je najít pravděpodobnostní rozdělení sledovaného sloupce.

V tomto cvičení prozkoumáš sloupec business_travel ze zjednodušené verze IBM HR datasetu.

DataFrame byl naimportován jako hr a numpy jako np. Jak bylo řečeno v předchozí kapitole, pandas byl naimportován jako pd pro toto i všechna další cvičení v kurzu.

1
- Vypiš absolutní frekvence každé jedinečné hodnoty ve sloupci business_travel.

2
- Vypiš pravděpodobnostní rozdělení proměnné business_travel, tedy relativní frekvence každé kategorie.
3
- Pomocí výsledku .value_counts() vygeneruj sloupcový graf zobrazující absolutní frekvence každé kategorie ve sloupci business_travel.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Instrukce 1/3

cvičení