Effect van steekproefaandeel op bootstrap-BI's
Een extra element dat de breedte van het betrouwbaarheidsinterval beïnvloedt, is de waarde van de steekproefparameter, \(\hat{p}\).
In het algemeen geldt: als de werkelijke parameter dicht bij 0,5 ligt, is de standaardfout van \(\hat{p}\) groter dan wanneer de werkelijke parameter dichter bij 0 of 1 ligt. Bij het berekenen van een bootstrap t-betrouwbaarheidsinterval bepaalt de standaardfout de breedte van het BI, en hier (gegeven een werkelijke parameter van 0,8) is het steekproefaandeel hoger dan in eerdere oefeningen, waardoor het betrouwbaarheidsinterval smaller zal zijn.
Deze oefening maakt deel uit van de cursus
Basis van inferentie in R
Oefeninstructies
calc_p_hat()staat in het script om de steekproefaandelen te berekenen.calc_t_conf_int()uit de vorige oefening is bijgewerkt en kan nu elke waarde vanp_hatals argument gebruiken. Lees de definities en probeer ze te begrijpen.- Voer de code uit om het bootstrap t-betrouwbaarheidsinterval voor de oorspronkelijke populatie te berekenen.
- Beschouw een nieuwe populatie waarbij de werkelijke parameter 0,8 is,
one_poll_0.8. Bereken \(\hat{p}\) van deze nieuwe steekproef, met dezelfde techniek als bij de oorspronkelijke gegevensset. Noem ditp_hat_0.8. - Bepaal het bootstrap t-betrouwbaarheidsinterval met de nieuwe gebootstrapte gegevens,
one_poll_boot_0.8, en de nieuwe \(\hat{p}\). Merk op dat dit smaller is dan eerder berekend.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
calc_p_hat <- function(dataset) {
dataset %>%
summarize(stat = mean(vote == "yes")) %>%
pull()
}
calc_t_conf_int <- function(resampled_dataset, p_hat) {
resampled_dataset %>%
summarize(
lower = p_hat - 2 * sd(stat),
upper = p_hat + 2 * sd(stat)
)
}
# Find proportion of yes votes from original population
p_hat <- calc_p_hat(one_poll)
# Review the value
p_hat
# Calculate bootstrap t-confidence interval (original 0.6 param)
calc_t_conf_int(one_poll_boot, p_hat)
# Find proportion of yes votes from new population
p_hat_0.8 <- ___
# Review the value
p_hat_0.8
# Calculate the bootstrap t-confidence interval (new 0.8 param)
___