Intervalle de confiance t par bootstrap
Les exercices précédents vous ont appris deux choses :
- Vous pouvez mesurer la variabilité associée à \(\hat{p}\) en rééchantillonnant à partir de l’échantillon initial.
- Une fois que vous connaissez la variabilité de \(\hat{p}\), vous pouvez l’utiliser pour mesurer à quelle distance se trouve la proportion véritable.
Notez que le taux de proximité (ici 95 %) correspond à la fréquence à laquelle un échantillon est choisi de sorte qu’il soit proche du paramètre de population. Vous ne saurez jamais si un jeu de données particulier est proche ou éloigné du paramètre, mais vous savez qu’à long terme, 95 % des échantillons que vous collecterez devraient fournir des estimations à moins de \(2SE\) du véritable paramètre de population.
Les votes issus d’un seul sondage, one_poll, et les données provenant de 1000 rééchantillonnages bootstrap, one_poll_boot, sont disponibles dans votre espace de travail. Ils sont basés sur l’Expérience 2 vue plus tôt dans le chapitre.
Comme dans l’exercice précédent, lorsque l’on parle de la variabilité d’une statistique, on appelle ce nombre l’erreur standard.
Cet exercice fait partie du cours
Bases de l’inférence en R
Instructions
- Calculez \(\hat{p}\) et affectez le résultat à
p_hat. Dans l’appel àsummarize(), calculezstatcomme la moyenne devoteégal à"yes". - Trouvez un intervalle de valeurs plausibles pour le véritable paramètre en calculant \(\hat{p} \pm 2SE\).
- La borne
lowerde l’intervalle de confiance estp_hatmoins deux fois l’erreur standard destat. Utilisezsd()pour calculer l’erreur standard. - La borne
upperestp_hatplus deux fois l’erreur standard destat.
- La borne
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# From previous exercises
one_poll <- all_polls %>%
filter(poll == 1) %>%
select(vote)
one_poll_boot <- one_poll %>%
specify(response = vote, success = "yes") %>%
generate(reps = 1000, type = "bootstrap") %>%
calculate(stat = "prop")
p_hat <- one_poll %>%
# Calculate proportion of yes votes
summarize(stat = ___) %>%
pull()
# Create an interval of plausible values
one_poll_boot %>%
summarize(
# Lower bound is p_hat minus 2 std errs
lower = ___,
# Upper bound is p_hat plus 2 std errs
upper = ___
)