Een BI construeren
Je hebt gezien hoe p-dakje kan variëren bij hersampelen, maar we moeten dit heel vaak doen om een goede schatting van de variabiliteit te krijgen. Hier bereken je een volledige bootstrapverdeling om de standaardfout (SE) te schatten die wordt gebruikt om een betrouwbaarheidsinterval te vormen. Je gebruikt een extra werkwoord uit infer, calculate(), om het proces te stroomlijnen van veel statistieken berekenen uit veel gegevenssets.
Neem even de tijd om de output van calculate te bekijken. Deze functie reduceert je data frame tot slechts twee kolommen: één voor de "stat"s en een andere voor de "replicate" waarmee ze overeenkomen.
Als je je bootstrapverdeling plot, zie je dat die klokvormig is. Dankzij die vorm kun je twee keer de SE optellen en aftrekken om een 95%-interval te krijgen.
Deze oefening maakt deel uit van de cursus
Inferentie voor categorische gegevens in R
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Create bootstrap distribution for proportion with High conf
boot_dist <- gss2016 %>%
# Specify the response and success
specify(response = ___, ___ = "___") %>%
# Generate 500 bootstrap reps
generate(___ = ___, type = "bootstrap") %>%
# Calculate proportions
calculate(stat = "___")
# See the result
boot_dist