3 druhy vzorkování

Teď porovnáš výkonnost bodových odhadů při použití jednoduchého, stratifikovaného a clusterového vzorkování. Nejdřív ale musíš vzorky připravit.

Budete pracovat se sloupcem RelationshipSatisfaction z datasetu attrition_pop, který popisuje, jak jsou zaměstnanci spokojeni ve vztahu k firmě. Sloupec má čtyři úrovně: Low, Medium, High a Very_High. Knihovna pandas je načtena pod standardním aliasem a balíček random je také k dispozici.

1
- Proveď jednoduché náhodné vzorkování na attrition_pop tak, aby výsledný vzorek tvořil čtvrtinu celé populace. Nastav seed na 2022.

2
- Proveď stratifikované vzorkování na attrition_pop tak, aby z každé skupiny RelationshipSatisfaction bylo vybráno čtvrtina záznamy. Nastav seed na 2022.
3
- Vytvoř seznam unikátních hodnot ze sloupce RelationshipSatisfaction datasetu attrition_pop.
- Náhodně vyber z satisfaction_unique dvě hodnoty.
- Vyfiltruj z populace řádky, kde RelationshipSatisfaction nabývá hodnot z satisfaction_samp, a odstraň nepoužívané kategorie ze sloupce RelationshipSatisfaction; výsledek ulož do attrition_clust_prep.
- Proveď clusterové vzorkování na vybraných skupinách spokojenosti tak, aby vzorek tvořil čtvrtinu celé populace, a nastav seed na 2022.

cvičení

3 druhy vzorkování

Instrukce 1/3

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Instrukce 1/3

cvičení