Intervalle de confiance t par bootstrap

Les exercices précédents vous ont appris deux choses :

Vous pouvez mesurer la variabilité associée à \(\hat{p}\) en rééchantillonnant à partir de l’échantillon initial.
Une fois que vous connaissez la variabilité de \(\hat{p}\), vous pouvez l’utiliser pour mesurer à quelle distance se trouve la proportion véritable.

Notez que le taux de proximité (ici 95 %) correspond à la fréquence à laquelle un échantillon est choisi de sorte qu’il soit proche du paramètre de population. Vous ne saurez jamais si un jeu de données particulier est proche ou éloigné du paramètre, mais vous savez qu’à long terme, 95 % des échantillons que vous collecterez devraient fournir des estimations à moins de \(2SE\) du véritable paramètre de population.

Les votes issus d’un seul sondage, one_poll, et les données provenant de 1000 rééchantillonnages bootstrap, one_poll_boot, sont disponibles dans votre espace de travail. Ils sont basés sur l’Expérience 2 vue plus tôt dans le chapitre.

Comme dans l’exercice précédent, lorsque l’on parle de la variabilité d’une statistique, on appelle ce nombre l’erreur standard.

Cet exercice fait partie du cours

Bases de l’inférence en R

Afficher le cours

Instructions

Calculez \(\hat{p}\) et affectez le résultat à p_hat. Dans l’appel à summarize(), calculez stat comme la moyenne de vote égal à "yes".
Trouvez un intervalle de valeurs plausibles pour le véritable paramètre en calculant \(\hat{p} \pm 2SE\).
- La borne lower de l’intervalle de confiance est p_hat moins deux fois l’erreur standard de stat. Utilisez sd() pour calculer l’erreur standard.
- La borne upper est p_hat plus deux fois l’erreur standard de stat.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# From previous exercises
one_poll <- all_polls %>%
  filter(poll == 1) %>%
  select(vote)
one_poll_boot <- one_poll %>%
  specify(response = vote, success = "yes") %>%
  generate(reps = 1000, type = "bootstrap") %>% 
  calculate(stat = "prop")
  
p_hat <- one_poll %>%
  # Calculate proportion of yes votes
  summarize(stat = ___) %>%
  pull()

# Create an interval of plausible values
one_poll_boot %>%
  summarize(
    # Lower bound is p_hat minus 2 std errs
    lower = ___,
    # Upper bound is p_hat plus 2 std errs
    upper = ___
  )

Modifier et exécuter le code