Regla empírica

Muchas de las estadísticas que usamos en análisis de datos (incluidas la media muestral y la proporción muestral) tienen propiedades útiles para entender mejor el/los parámetro(s) poblacional(es) de interés.

Una de estas propiedades es que, si se conoce la variabilidad de la proporción muestral (llamada el error estándar, o \(SE\)), entonces aproximadamente el 95% de los valores de \(\hat{p}\) (provenientes de distintas muestras) estarán a menos de \(2SE\) de la proporción poblacional verdadera.

Para comprobar si esto se cumple en esta situación, volvamos a las encuestas generadas tomando muchas muestras de la misma población.

El conjunto de datos all_polls contiene 1000 muestras de tamaño 30 de una población con probabilidad de votar por la Candidata X igual a 0.6.

Ten en cuenta que usarás la función de R sd(), que calcula la variabilidad de cualquier conjunto de números. En estadística, cuando sd() se aplica a una variable (p. ej., precio de una vivienda) lo llamamos la desviación estándar. Cuando sd() se aplica a una estadística (p. ej., un conjunto de proporciones muestrales) lo llamamos el error estándar.

Este ejercicio forma parte del curso

Fundamentos de la inferencia en R

Ver curso

Instrucciones del ejercicio

Ejecuta el código para generar props, la proporción de personas que planean votar sí en cada encuesta. Se basa en ex1_props de ejercicios anteriores.
Añade una columna, is_in_conf_int, que sea TRUE cuando la proporción muestral de votos por el sí esté a menos de 2 errores estándar de la proporción poblacional verdadera de votos por el sí. Es decir, que la diferencia abs()oluta entre prop_yes y true_prop_yes sea menor que el doble de sd() de prop_yes.
Calcula la proporción de estadísticas muestrales dentro del intervalo de confianza, prop_in_conf_int, tomando la mean() de is_in_conf_int.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Proportion of yes votes by poll
props <- all_polls %>% 
  group_by(poll) %>% 
  summarize(prop_yes = mean(vote == "yes"))

# The true population proportion of yes votes
true_prop_yes <- 0.6

# Proportion of polls within 2SE
props %>%
  # Add column: is prop_yes in 2SE of 0.6
  mutate(is_in_conf_int = ___(___ - ___) < ___ * ___(___)) %>%
  # Calculate  proportion in conf int
  summarize(prop_in_conf_int = ___(___))

Editar y ejecutar código