Randomisatie-dichtheid
Met 100 herhalingen kun je het mechanisme van permuteren begrijpen. Maar 100 is niet genoeg om het volledige bereik van waarschijnlijke waarden voor de nulverschillen in proporties te zien.
Denk terug aan de vier stappen van inferentie. Dit zijn dezelfde vier stappen die je in alle inferentie-oefeningen in deze cursus en in toekomstige cursussen statistische inferentie zult gebruiken. Gebruik de functienamen om je het analyseproces te herinneren.
specifyspecificeert de respons- en verklarende variabelen.hypothesizeformuleert de nulhypothese.generategenereert resamples, permutaties of simulaties.calculateberekent samenvattende statistieken.
In deze oefening herhaal je het proces 1000 keer om gevoel te krijgen voor de volledige verdeling van nulverschillen in proporties.
Deze oefening maakt deel uit van de cursus
Basis van inferentie in R
Oefeninstructies
De pakketten dplyr, ggplot2, NHANES en infer zijn voor je geladen.
- Genereer 1000 verschillen in proporties door de variabele
HomeOwnte schudden met deinfer-syntaxis. Herinner deinfer-syntaxis:specifydat de relatie van belangHomeOwnvs.Genderis en dat een succes in deze context huiseigenaarschap is,success = "Own".hypothesizedat de nul waar is metnull = "independence"(wat betekent dat geslacht en huiseigenaarschap niet samenhangen).generate1000 permutaties; zetrepsop 1000.calculatede statistiekstat = "diff in props"met de volgordec("male", "female").
- Voer de dichtheidsplot-code uit om een vloeiende visuele weergave van de verdeling van verschillen te maken. Welke vorm heeft de curve?
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Perform 1000 permutations
homeown_perm <- homes %>%
# Specify HomeOwn vs. Gender, with `"Own" as success
___(___ ~ ___, success = "___") %>%
# Use a null hypothesis of independence
___(___) %>%
# Generate 1000 repetitions (by permutation)
___(reps = ___, type = "permute") %>%
# Calculate the difference in proportions (male then female)
___(___, order = ___))
# Density plot of 1000 permuted differences in proportions
ggplot(homeown_perm, aes(x = stat)) +
geom_density()