Règle empirique

De nombreuses statistiques utilisées en analyse de données (notamment la moyenne et la proportion d’échantillon) ont des propriétés utiles pour mieux comprendre le ou les paramètres de la population.

L’une de ces propriétés est que, si la variabilité de la proportion d’échantillon (appelée l’erreur standard, ou \(SE\)) est connue, alors environ 95 % des valeurs de \(\hat{p}\) (issues d’échantillons différents) se situeront à moins de \(2SE\) de la proportion réelle dans la population.

Pour vérifier si cela tient dans la situation qui nous intéresse, revenons aux sondages générés en prenant de nombreux échantillons de la même population.

Le jeu de données all_polls contient 1000 échantillons de taille 30, issus d’une population où la probabilité de voter pour le candidat X est égale à 0,6.

Notez que vous allez utiliser la fonction R sd() qui calcule la variabilité d’un ensemble de nombres. En statistique, lorsque sd() est appliquée à une variable (par exemple, le prix d’une maison), on parle d’écart type. Lorsqu’elle est appliquée à une statistique (par exemple, un ensemble de proportions d’échantillon), on parle d’erreur standard.

Cet exercice fait partie du cours

Bases de l’inférence en R

Afficher le cours

Instructions

Exécutez le code pour générer props, la proportion d’individus qui prévoient de voter oui dans chaque sondage. Ceci est basé sur ex1_props des exercices précédents.
Ajoutez une colonne is_in_conf_int qui vaut TRUE lorsque la proportion d’échantillon de votes « oui » est à moins de 2 erreurs standard de la proportion réelle de votes « oui » dans la population. Autrement dit, la différence abs()olue entre prop_yes et true_prop_yes est inférieure à deux fois sd() de prop_yes.
Calculez la proportion de statistiques d’échantillon dans l’intervalle de confiance, prop_in_conf_int, en prenant la mean() de is_in_conf_int.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Proportion of yes votes by poll
props <- all_polls %>% 
  group_by(poll) %>% 
  summarize(prop_yes = mean(vote == "yes"))

# The true population proportion of yes votes
true_prop_yes <- 0.6

# Proportion of polls within 2SE
props %>%
  # Add column: is prop_yes in 2SE of 0.6
  mutate(is_in_conf_int = ___(___ - ___) < ___ * ___(___)) %>%
  # Calculate  proportion in conf int
  summarize(prop_in_conf_int = ___(___))

Modifier et exécuter le code