Een BI construeren

Je hebt gezien hoe p-dakje kan variëren bij hersampelen, maar we moeten dit heel vaak doen om een goede schatting van de variabiliteit te krijgen. Hier bereken je een volledige bootstrapverdeling om de standaardfout (SE) te schatten die wordt gebruikt om een betrouwbaarheidsinterval te vormen. Je gebruikt een extra werkwoord uit infer, calculate(), om het proces te stroomlijnen van veel statistieken berekenen uit veel gegevenssets.

Neem even de tijd om de output van calculate te bekijken. Deze functie reduceert je data frame tot slechts twee kolommen: één voor de "stat"s en een andere voor de "replicate" waarmee ze overeenkomen.

Als je je bootstrapverdeling plot, zie je dat die klokvormig is. Dankzij die vorm kun je twee keer de SE optellen en aftrekken om een 95%-interval te krijgen.

Deze oefening maakt deel uit van de cursus

Inferentie voor categorische gegevens in R

Bekijk cursus

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Create bootstrap distribution for proportion with High conf
boot_dist <- gss2016 %>%
  # Specify the response and success
  specify(response = ___, ___ = "___") %>%
  # Generate 500 bootstrap reps
  generate(___ = ___, type = "bootstrap") %>%
  # Calculate proportions
  calculate(stat = "___")

# See the result
boot_dist

Code bewerken en uitvoeren