1. Nauka
  2. /
  3. Kursy
  4. /
  5. Prywatność danych i anonimizacja w Pythonie

Connected

ćwiczenie

Próbkowanie z zachowaniem tego samego rozkładu prawdopodobieństwa

Wiele organizacji, takich jak US Census Bureau, publicznie udostępnia próbki zebranych danych o obywatelach. Zbiory te są najpierw anonimizowane przy użyciu różnych technik, a następnie publikowana jest niewielka część – od 1% do 5% – co pozwala na wykonywanie obliczeń. Próbkowanie zachowuje statystyczne właściwości danych, umożliwiając analizę i lepsze zrozumienie całej populacji.

W tym ćwiczeniu zanoninimizujesz kolumnę department z zbioru danych IBM HR, próbkując dane zgodnie z rozkładem oryginalnego zbioru.

Zbiór danych został wczytany jako hr.

Instrukcje

100 XP
  • Oblicz względne częstości każdej unikalnej wartości w kolumnie department.
  • Wyodrębnij prawdopodobieństwa z obiektu counts i zapisz je w zmiennej o nazwie distributions.
  • Wykonaj próbkowanie na podstawie wcześniej obliczonych rozkładów prawdopodobieństwa. Rozmiar próby powinien być taki sam jak rozmiar zbioru danych hr.