Randomisatie bij genderdiscriminatie
Onthoud dat we een situatie bekijken waarin het aantal mannen en vrouwen vastligt (dit zijn de cv’s) en het aantal mensen dat wordt gepromoveerd ook vastligt (de managers konden maar 35 personen promoten).
In deze oefening maak je een randomisatieverdeling van de nulstatistiek met 1000 herhalingen, in plaats van slechts 5 in de vorige oefening. Ter herinnering: de statistiek van interesse is het verschil in proporties gepromoveerden tussen de genders (dus proportie voor mannen min proportie voor vrouwen). Met de oorspronkelijke gegevensset kun je berekenen hoe de promotiepercentages tussen mannen en vrouwen verschillen. Met de specify-hypothesis-generate-calculate-werkwijze in infer kun je dezelfde statistiek berekenen, maar in plaats van één getal krijg je een volledige verdeling. In deze oefening vergelijk je dat ene getal uit de oorspronkelijke gegevensset met de verdeling die door de simulatie is gemaakt.
Deze oefening maakt deel uit van de cursus
Basis van inferentie in R
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Calculate the observed difference in promotion rate
diff_orig <- disc %>%
# Group by sex
group_by(___) %>%
# Summarize to calculate fraction promoted
___(prop_prom = ___(___)) %>%
# Summarize to calculate difference
___(stat = ___(___)) %>%
pull()
# See the result
diff_orig