1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Vzorkování v R

Connected

cvičení

Prosté náhodné vzorkování

Nejjednodušší metodou vzorkování populace je ta, kterou už znáš. Říká se jí prosté náhodné vzorkování (anglicky "simple random sampling", zkráceně "SRS") a spočívá v náhodném výběru řádků jeden po druhém, přičemž každý řádek má stejnou šanci být vybrán jako kterýkoli jiný.

Aby bylo dobře vidět, které řádky se do vzorku dostaly, je užitečné před samotným vzorkováním přidat do datasetu sloupec s ID řádků.

V této kapitole se podíváme na metody vzorkování pomocí syntetického (fiktivního) datasetu od IBM o odchodu zaměstnanců, kde „attrition" znamená odchod ze společnosti.

K dispozici máš attrition_pop; dplyr je načtený.

Pokyny

100 XP
  • Zobraz dataset attrition_pop. Prozkoumej ho v prohlížeči, dokud si nebudeš jistý/á, co obsahuje.
  • Nastav náhodné semínko na hodnotu podle vlastního výběru.
  • Přidej do datasetu sloupec s ID řádků a pak pomocí prostého náhodného vzorkování vyber 200 řádků.
  • Zobraz vzorový dataset attrition_samp. Čeho si všímáš u ID řádků?