1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Vzorkování v Pythonu

Connected

cvičení

3 druhy vzorkování

Teď porovnáš výkonnost bodových odhadů při použití jednoduchého, stratifikovaného a clusterového vzorkování. Nejdřív ale musíš vzorky připravit.

Budete pracovat se sloupcem RelationshipSatisfaction z datasetu attrition_pop, který popisuje, jak jsou zaměstnanci spokojeni ve vztahu k firmě. Sloupec má čtyři úrovně: Low, Medium, High a Very_High. Knihovna pandas je načtena pod standardním aliasem a balíček random je také k dispozici.

Instrukce 1/3

undefined XP
  • 1
    • Proveď jednoduché náhodné vzorkování na attrition_pop tak, aby výsledný vzorek tvořil čtvrtinu celé populace. Nastav seed na 2022.
  • 2
    • Proveď stratifikované vzorkování na attrition_pop tak, aby z každé skupiny RelationshipSatisfaction bylo vybráno čtvrtina záznamy. Nastav seed na 2022.
  • 3
    • Vytvoř seznam unikátních hodnot ze sloupce RelationshipSatisfaction datasetu attrition_pop.
    • Náhodně vyber z satisfaction_unique dvě hodnoty.
    • Vyfiltruj z populace řádky, kde RelationshipSatisfaction nabývá hodnot z satisfaction_samp, a odstraň nepoužívané kategorie ze sloupce RelationshipSatisfaction; výsledek ulož do attrition_clust_prep.
    • Proveď clusterové vzorkování na vybraných skupinách spokojenosti tak, aby vzorek tvořil čtvrtinu celé populace, a nastav seed na 2022.