Intervalo t de confianza con bootstrap
Los ejercicios anteriores te dijeron dos cosas:
- Puedes medir la variabilidad asociada con \(\hat{p}\) re-muestreando a partir de la muestra original.
- Una vez que conoces la variabilidad de \(\hat{p}\), puedes usarla para medir lo lejos que está la proporción verdadera.
Ten en cuenta que la tasa de cercanía (aquí 95 %) se refiere a la frecuencia con la que una muestra se elige de forma que quede cerca del parámetro poblacional. Nunca sabrás si un conjunto de datos concreto está cerca o lejos del parámetro, pero sí sabes que, a lo largo del tiempo, el 95 % de las muestras que recojas deberían darte estimaciones que estén dentro de \(2SE\) del parámetro verdadero de la población.
Los votos de una sola encuesta, one_poll, y los datos de 1000 re-muestreos bootstrap, one_poll_boot, están disponibles en tu espacio de trabajo. Se basan en el Experimento 2 de antes en el capítulo.
Como en el ejercicio anterior, cuando hablamos de la variabilidad de una estadística, a ese número se le llama el error estándar.
Este ejercicio forma parte del curso
Fundamentos de la inferencia en R
Instrucciones del ejercicio
- Calcula \(\hat{p}\) y asigna el resultado a
p_hat. En la llamada asummarize(), calculastatcomo la media de quevotesea igual a"yes". - Encuentra un intervalo de valores plausibles para el parámetro verdadero calculando \(\hat{p} \pm 2SE\).
- El límite
lowerdel intervalo de confianza esp_hatmenos dos veces el error estándar destat. Usasd()para calcular el error estándar. - El límite
upperesp_hatmás dos veces el error estándar destat.
- El límite
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# From previous exercises
one_poll <- all_polls %>%
filter(poll == 1) %>%
select(vote)
one_poll_boot <- one_poll %>%
specify(response = vote, success = "yes") %>%
generate(reps = 1000, type = "bootstrap") %>%
calculate(stat = "prop")
p_hat <- one_poll %>%
# Calculate proportion of yes votes
summarize(stat = ___) %>%
pull()
# Create an interval of plausible values
one_poll_boot %>%
summarize(
# Lower bound is p_hat minus 2 std errs
lower = ___,
# Upper bound is p_hat plus 2 std errs
upper = ___
)