Vzorkování ze stejného pravděpodobnostního rozložení

Mnoho organizací, například americký Úřad pro sčítání lidu (U.S. Census), zveřejňuje vzorky dat shromážděných o soukromých osobách. Tato data jsou nejprve anonymizována různými technikami a poté se uvolní malá část – obvykle 1 % až 5 % vzorku – aby bylo možné provádět výpočty. Vzorkování je osvědčená metoda, která zachovává statistické vlastnosti dat a umožňuje studovat a pochopit sledovanou populaci.

V tomto cvičení anonymizuješ sloupec department z datasetu IBM HR tak, že budeš vzorkovat z rozložení původního datasetu.

Dataset byl načten jako hr.

Získej relativní frekvence každé jedinečné hodnoty ve sloupci department.
Extrahuj pravděpodobnosti z proměnné counts a ulož je do proměnné distributions.
Proveď vzorkování z dříve vypočítaných pravděpodobnostních rozložení. Velikost vzorku by měla odpovídat velikosti datasetu hr.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Pokyny

cvičení