1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Ochrana soukromí a anonymizace dat v Pythonu

Connected

cvičení

Vzorkování ze stejného pravděpodobnostního rozložení

Mnoho organizací, například americký Úřad pro sčítání lidu (U.S. Census), zveřejňuje vzorky dat shromážděných o soukromých osobách. Tato data jsou nejprve anonymizována různými technikami a poté se uvolní malá část – obvykle 1 % až 5 % vzorku – aby bylo možné provádět výpočty. Vzorkování je osvědčená metoda, která zachovává statistické vlastnosti dat a umožňuje studovat a pochopit sledovanou populaci.

V tomto cvičení anonymizuješ sloupec department z datasetu IBM HR tak, že budeš vzorkovat z rozložení původního datasetu.

Dataset byl načten jako hr.

Pokyny

100 XP
  • Získej relativní frekvence každé jedinečné hodnoty ve sloupci department.
  • Extrahuj pravděpodobnosti z proměnné counts a ulož je do proměnné distributions.
  • Proveď vzorkování z dříve vypočítaných pravděpodobnostních rozložení. Velikost vzorku by měla odpovídat velikosti datasetu hr.