Próbkowanie z zachowaniem tego samego rozkładu prawdopodobieństwa

Wiele organizacji, takich jak US Census Bureau, publicznie udostępnia próbki zebranych danych o obywatelach. Zbiory te są najpierw anonimizowane przy użyciu różnych technik, a następnie publikowana jest niewielka część – od 1% do 5% – co pozwala na wykonywanie obliczeń. Próbkowanie zachowuje statystyczne właściwości danych, umożliwiając analizę i lepsze zrozumienie całej populacji.

W tym ćwiczeniu zanoninimizujesz kolumnę department z zbioru danych IBM HR, próbkując dane zgodnie z rozkładem oryginalnego zbioru.

Zbiór danych został wczytany jako hr.

Oblicz względne częstości każdej unikalnej wartości w kolumnie department.
Wyodrębnij prawdopodobieństwa z obiektu counts i zapisz je w zmiennej o nazwie distributions.
Wykonaj próbkowanie na podstawie wcześniej obliczonych rozkładów prawdopodobieństwa. Rozmiar próby powinien być taki sam jak rozmiar zbioru danych hr.

ćwiczenie

Próbkowanie z zachowaniem tego samego rozkładu prawdopodobieństwa

Instrukcje

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie