1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Ochrana soukromí a anonymizace dat v Pythonu

Connected

cvičení

Prozkoumej rozložení dat

Pokud chceme anonymizovat dataset tak, že z něj vzorkujeme data co nejrealističtějším způsobem, potřebujeme mít určité odborné a statistické znalosti o daných datech. Jak jsme viděli, klíčové je najít pravděpodobnostní rozdělení sledovaného sloupce.

V tomto cvičení prozkoumáš sloupec business_travel ze zjednodušené verze IBM HR datasetu.

DataFrame byl naimportován jako hr a numpy jako np. Jak bylo řečeno v předchozí kapitole, pandas byl naimportován jako pd pro toto i všechna další cvičení v kurzu.

Instrukce 1/3

undefined XP
  • 1
    • Vypiš absolutní frekvence každé jedinečné hodnoty ve sloupci business_travel.
  • 2
    • Vypiš pravděpodobnostní rozdělení proměnné business_travel, tedy relativní frekvence každé kategorie.
  • 3
    • Pomocí výsledku .value_counts() vygeneruj sloupcový graf zobrazující absolutní frekvence každé kategorie ve sloupci business_travel.