Bootstrap t-betrouwbaarheidsinterval

De vorige oefeningen leerden je twee dingen:

Je kunt de variabiliteit van $\hat{p}$ meten door opnieuw te bemonsteren uit de oorspronkelijke steekproef.
Zodra je de variabiliteit van $\hat{p}$ kent, kun je die gebruiken om te meten hoe ver de werkelijke proportie ervan afligt.

Let op: de snelheid van nabijheid (hier 95%) verwijst naar hoe vaak een steekproef wordt getrokken die dicht bij de populatieparameter ligt. Je zult nooit zeker weten of een specifieke gegevensset dicht bij of ver van de parameter ligt, maar je weet wel dat, over je hele leven, 95% van de steekproeven die je verzamelt schattingen zou moeten opleveren die binnen $2SE$ van de echte populatieparameter liggen.

De stemmen uit één peiling, one_poll, en de gegevens uit 1000 bootstrap-resamples, one_poll_boot, zijn beschikbaar in je werkruimte. Deze zijn gebaseerd op Experiment 2 van eerder in dit hoofdstuk.

Net als in de vorige oefening wordt, wanneer we het hebben over de variabiliteit van een statistiek, dit getal de standaardfout genoemd.

Deze oefening maakt deel uit van de cursus

Basis van inferentie in R

Cursus bekijken

Oefeninstructies

Bereken $\hat{p}$ en ken het resultaat toe aan p_hat. Bereken in de aanroep van summarize() stat als het gemiddelde van vote dat gelijk is aan "yes".
Vind een interval met waarden die aannemelijk zijn voor de echte parameter door $\hat{p} \pm 2SE` te berekenen.
- De lower grens van het betrouwbaarheidsinterval is p_hat min twee keer de standaardfout van stat. Gebruik sd() om de standaardfout te berekenen.
- De upper grens is p_hat plus twee keer de standaardfout van stat.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# From previous exercises
one_poll <- all_polls %>%
  filter(poll == 1) %>%
  select(vote)
one_poll_boot <- one_poll %>%
  specify(response = vote, success = "yes") %>%
  generate(reps = 1000, type = "bootstrap") %>% 
  calculate(stat = "prop")
  
p_hat <- one_poll %>%
  # Calculate proportion of yes votes
  summarize(stat = ___) %>%
  pull()

# Create an interval of plausible values
one_poll_boot %>%
  summarize(
    # Lower bound is p_hat minus 2 std errs
    lower = ___,
    # Upper bound is p_hat plus 2 std errs
    upper = ___
  )

Code bewerken en uitvoeren