Règle empirique
De nombreuses statistiques utilisées en analyse de données (notamment la moyenne et la proportion d’échantillon) ont des propriétés utiles pour mieux comprendre le ou les paramètres de la population.
L’une de ces propriétés est que, si la variabilité de la proportion d’échantillon (appelée l’erreur standard, ou \(SE\)) est connue, alors environ 95 % des valeurs de \(\hat{p}\) (issues d’échantillons différents) se situeront à moins de \(2SE\) de la proportion réelle dans la population.
Pour vérifier si cela tient dans la situation qui nous intéresse, revenons aux sondages générés en prenant de nombreux échantillons de la même population.
Le jeu de données all_polls contient 1000 échantillons de taille 30, issus d’une population où la probabilité de voter pour le candidat X est égale à 0,6.
Notez que vous allez utiliser la fonction R sd() qui calcule la variabilité d’un ensemble de nombres. En statistique, lorsque sd() est appliquée à une variable (par exemple, le prix d’une maison), on parle d’écart type. Lorsqu’elle est appliquée à une statistique (par exemple, un ensemble de proportions d’échantillon), on parle d’erreur standard.
Cet exercice fait partie du cours
Bases de l’inférence en R
Instructions
- Exécutez le code pour générer
props, la proportion d’individus qui prévoient de voter oui dans chaque sondage. Ceci est basé surex1_propsdes exercices précédents. - Ajoutez une colonne
is_in_conf_intqui vautTRUElorsque la proportion d’échantillon de votes « oui » est à moins de2erreurs standard de la proportion réelle de votes « oui » dans la population. Autrement dit, la différenceabs()olue entreprop_yesettrue_prop_yesest inférieure à deux foissd()deprop_yes. - Calculez la proportion de statistiques d’échantillon dans l’intervalle de confiance,
prop_in_conf_int, en prenant lamean()deis_in_conf_int.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Proportion of yes votes by poll
props <- all_polls %>%
group_by(poll) %>%
summarize(prop_yes = mean(vote == "yes"))
# The true population proportion of yes votes
true_prop_yes <- 0.6
# Proportion of polls within 2SE
props %>%
# Add column: is prop_yes in 2SE of 0.6
mutate(is_in_conf_int = ___(___ - ___) < ___ * ___(___)) %>%
# Calculate proportion in conf int
summarize(prop_in_conf_int = ___(___))