Regla empírica
Muchas de las estadísticas que usamos en análisis de datos (incluidas la media muestral y la proporción muestral) tienen propiedades útiles para entender mejor el/los parámetro(s) poblacional(es) de interés.
Una de estas propiedades es que, si se conoce la variabilidad de la proporción muestral (llamada el error estándar, o \(SE\)), entonces aproximadamente el 95% de los valores de \(\hat{p}\) (provenientes de distintas muestras) estarán a menos de \(2SE\) de la proporción poblacional verdadera.
Para comprobar si esto se cumple en esta situación, volvamos a las encuestas generadas tomando muchas muestras de la misma población.
El conjunto de datos all_polls contiene 1000 muestras de tamaño 30 de una población con probabilidad de votar por la Candidata X igual a 0.6.
Ten en cuenta que usarás la función de R sd(), que calcula la variabilidad de cualquier conjunto de números. En estadística, cuando sd() se aplica a una variable (p. ej., precio de una vivienda) lo llamamos la desviación estándar. Cuando sd() se aplica a una estadística (p. ej., un conjunto de proporciones muestrales) lo llamamos el error estándar.
Este ejercicio forma parte del curso
Fundamentos de la inferencia en R
Instrucciones del ejercicio
- Ejecuta el código para generar
props, la proporción de personas que planean votar sí en cada encuesta. Se basa enex1_propsde ejercicios anteriores. - Añade una columna,
is_in_conf_int, que seaTRUEcuando la proporción muestral de votos por el sí esté a menos de2errores estándar de la proporción poblacional verdadera de votos por el sí. Es decir, que la diferenciaabs()oluta entreprop_yesytrue_prop_yessea menor que el doble desd()deprop_yes. - Calcula la proporción de estadísticas muestrales dentro del intervalo de confianza,
prop_in_conf_int, tomando lamean()deis_in_conf_int.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Proportion of yes votes by poll
props <- all_polls %>%
group_by(poll) %>%
summarize(prop_yes = mean(vote == "yes"))
# The true population proportion of yes votes
true_prop_yes <- 0.6
# Proportion of polls within 2SE
props %>%
# Add column: is prop_yes in 2SE of 0.6
mutate(is_in_conf_int = ___(___ - ___) < ___ * ___(___)) %>%
# Calculate proportion in conf int
summarize(prop_in_conf_int = ___(___))