Aan de slagGa gratis aan de slag

Effect van steekproefaandeel op bootstrap-BI's

Een extra element dat de breedte van het betrouwbaarheidsinterval beïnvloedt, is de waarde van de steekproefparameter, \(\hat{p}\).

In het algemeen geldt: als de werkelijke parameter dicht bij 0,5 ligt, is de standaardfout van \(\hat{p}\) groter dan wanneer de werkelijke parameter dichter bij 0 of 1 ligt. Bij het berekenen van een bootstrap t-betrouwbaarheidsinterval bepaalt de standaardfout de breedte van het BI, en hier (gegeven een werkelijke parameter van 0,8) is het steekproefaandeel hoger dan in eerdere oefeningen, waardoor het betrouwbaarheidsinterval smaller zal zijn.

Deze oefening maakt deel uit van de cursus

Basis van inferentie in R

Cursus bekijken

Oefeninstructies

  • calc_p_hat() staat in het script om de steekproefaandelen te berekenen. calc_t_conf_int() uit de vorige oefening is bijgewerkt en kan nu elke waarde van p_hat als argument gebruiken. Lees de definities en probeer ze te begrijpen.
  • Voer de code uit om het bootstrap t-betrouwbaarheidsinterval voor de oorspronkelijke populatie te berekenen.
  • Beschouw een nieuwe populatie waarbij de werkelijke parameter 0,8 is, one_poll_0.8. Bereken \(\hat{p}\) van deze nieuwe steekproef, met dezelfde techniek als bij de oorspronkelijke gegevensset. Noem dit p_hat_0.8.
  • Bepaal het bootstrap t-betrouwbaarheidsinterval met de nieuwe gebootstrapte gegevens, one_poll_boot_0.8, en de nieuwe \(\hat{p}\). Merk op dat dit smaller is dan eerder berekend.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

calc_p_hat <- function(dataset) {
  dataset %>%
    summarize(stat = mean(vote == "yes")) %>%
    pull()
}
calc_t_conf_int <- function(resampled_dataset, p_hat) {
  resampled_dataset %>%
    summarize(
      lower = p_hat - 2 * sd(stat),
      upper = p_hat + 2 * sd(stat)
    )
}

# Find proportion of yes votes from original population
p_hat <- calc_p_hat(one_poll)

# Review the value
p_hat  

# Calculate bootstrap t-confidence interval (original 0.6 param)
calc_t_conf_int(one_poll_boot, p_hat)

# Find proportion of yes votes from new population
p_hat_0.8 <- ___
  
# Review the value
p_hat_0.8  
  
# Calculate the bootstrap t-confidence interval (new 0.8 param)
___
Code bewerken en uitvoeren