1. Learn
  2. /
  3. Cursuri
  4. /
  5. Bazele inferenței în R

Connected

exercițiu

Dimensiunea eșantionului în distribuția de randomizare

Am creat două seturi de date noi, cu practic aceeași diferență de proporții ca în datele originale privind discriminarea. Totuși, unul dintre seturi (disc_small) are o treime din dimensiunea setului original, iar celălalt (disc_big) este de 10 ori mai mare.

În plus, același cod de permutare folosit anterior a fost aplicat și pe seturile mici și mari, generând distribuții mici și mari ale diferențelor permutate în ratele de promovare (disc_small_perm și, respectiv, disc_big_perm).

În acest exercițiu, vei folosi aceste două distribuții noi pentru a înțelege cum variază diferențele în funcție de dimensiuni de eșantion foarte diferite. Acordă atenție în special intervalului de variabilitate de pe axa x a fiecărei reprezentări grafice.

Instrucțiuni 1/3

undefined XP
  • 1
    • Tabelează setul de date mic, disc_small. Adică, apelează count(), transmițând coloanele sex și promote, pentru a obține un tabel de contingență.
    • Fă același lucru cu setul de date mare, disc_big.
  • 2
    • Folosind setul de date cu permutări mic, disc_perm_small, reprezintă grafic variabila stat.
    • Adaugă un strat de histogramă cu binwidth egal cu 0.01.
    • Adaugă o linie verticală folosind geom_vline(), cu interceptul pe axa x setat la diff_orig_small.
  • 3

    Desenează același grafic din nou, de data aceasta folosind setul de date mare, disc_perm_big, și un intercept pe axa x de diff_orig_big.