Dimensiunea eșantionului în distribuția de randomizare

Am creat două seturi de date noi, cu practic aceeași diferență de proporții ca în datele originale privind discriminarea. Totuși, unul dintre seturi (disc_small) are o treime din dimensiunea setului original, iar celălalt (disc_big) este de 10 ori mai mare.

În plus, același cod de permutare folosit anterior a fost aplicat și pe seturile mici și mari, generând distribuții mici și mari ale diferențelor permutate în ratele de promovare (disc_small_perm și, respectiv, disc_big_perm).

În acest exercițiu, vei folosi aceste două distribuții noi pentru a înțelege cum variază diferențele în funcție de dimensiuni de eșantion foarte diferite. Acordă atenție în special intervalului de variabilitate de pe axa x a fiecărei reprezentări grafice.

1
- Tabelează setul de date mic, disc_small. Adică, apelează count(), transmițând coloanele sex și promote, pentru a obține un tabel de contingență.
- Fă același lucru cu setul de date mare, disc_big.

2
- Folosind setul de date cu permutări mic, disc_perm_small, reprezintă grafic variabila stat.
- Adaugă un strat de histogramă cu binwidth egal cu 0.01.
- Adaugă o linie verticală folosind geom_vline(), cu interceptul pe axa x setat la diff_orig_small.
3
Desenează același grafic din nou, de data aceasta folosind setul de date mare, disc_perm_big, și un intercept pe axa x de diff_orig_big.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}exercițiu

Instrucțiuni 1/3

exercițiu