Bootstrap t-betrouwbaarheidsinterval
De vorige oefeningen leerden je twee dingen:
- Je kunt de variabiliteit van \(\hat{p}\) meten door opnieuw te bemonsteren uit de oorspronkelijke steekproef.
- Zodra je de variabiliteit van \(\hat{p}\) kent, kun je die gebruiken om te meten hoe ver de werkelijke proportie ervan afligt.
Let op: de snelheid van nabijheid (hier 95%) verwijst naar hoe vaak een steekproef wordt getrokken die dicht bij de populatieparameter ligt. Je zult nooit zeker weten of een specifieke gegevensset dicht bij of ver van de parameter ligt, maar je weet wel dat, over je hele leven, 95% van de steekproeven die je verzamelt schattingen zou moeten opleveren die binnen \(2SE\) van de echte populatieparameter liggen.
De stemmen uit één peiling, one_poll, en de gegevens uit 1000 bootstrap-resamples, one_poll_boot, zijn beschikbaar in je werkruimte. Deze zijn gebaseerd op Experiment 2 van eerder in dit hoofdstuk.
Net als in de vorige oefening wordt, wanneer we het hebben over de variabiliteit van een statistiek, dit getal de standaardfout genoemd.
Deze oefening maakt deel uit van de cursus
Basis van inferentie in R
Oefeninstructies
- Bereken \(\hat{p}\) en ken het resultaat toe aan
p_hat. Bereken in de aanroep vansummarize()statals het gemiddelde vanvotedat gelijk is aan"yes". - Vind een interval met waarden die aannemelijk zijn voor de echte parameter door $\hat{p} \pm 2SE` te berekenen.
- De
lowergrens van het betrouwbaarheidsinterval isp_hatmin twee keer de standaardfout vanstat. Gebruiksd()om de standaardfout te berekenen. - De
uppergrens isp_hatplus twee keer de standaardfout vanstat.
- De
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# From previous exercises
one_poll <- all_polls %>%
filter(poll == 1) %>%
select(vote)
one_poll_boot <- one_poll %>%
specify(response = vote, success = "yes") %>%
generate(reps = 1000, type = "bootstrap") %>%
calculate(stat = "prop")
p_hat <- one_poll %>%
# Calculate proportion of yes votes
summarize(stat = ___) %>%
pull()
# Create an interval of plausible values
one_poll_boot %>%
summarize(
# Lower bound is p_hat minus 2 std errs
lower = ___,
# Upper bound is p_hat plus 2 std errs
upper = ___
)