Intervalle par percentiles (bootstrap)

L’idée principale de l’exercice précédent était que la distance entre l’échantillon initial \(\hat{p}\) et les valeurs rééchantillonnées (ou bootstrapées) \(\hat{p}^*\) donne une mesure de l’écart entre le \(\hat{p}\) initial et la proportion vraie dans la population.

La même variabilité peut être mesurée autrement. Comme précédemment, si \(\hat{p}\) est suffisamment proche du paramètre réel, alors les valeurs rééchantillonnées (bootstrap) \(\hat{p}^*\) varieront de telle sorte qu’elles recouvrent le paramètre réel.

Au lieu d’utiliser \(\pm 2 SE\) pour mesurer les 95 % centraux des valeurs échantillonnées de \(\hat{p}\), vous pouvez obtenir la partie centrale des valeurs rééchantillonnées \(\hat{p}^*\) en retirant les 2,5 % les plus faibles et les 2,5 % les plus élevées. Notez que cette seconde méthode de construction des intervalles bootstrap fournit aussi une manière intuitive de créer des intervalles de confiance à 90 % ou 99 %, ainsi que des intervalles à 95 %.

Les rééchantillonnages bootstrap, one_poll_boot, et la proportion de votes « yes », p_hat, sont disponibles dans votre espace de travail.

Cet exercice fait partie du cours

Bases de l’inférence en R

Afficher le cours

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# From previous exercise: bootstrap t-confidence interval
one_poll_boot %>%
  summarize(
    lower = p_hat - 2 * sd(stat),
    upper = p_hat + 2 * sd(stat)
  )
  
# Manually calculate a 95% percentile interval
one_poll_boot %>%
  summarize(
    lower = ___(stat, p = ___),
    upper = ___
  )

Modifier et exécuter le code