CommencerCommencer gratuitement

Rééchantillonnage à partir d’un échantillon

Pour étudier dans quelle mesure les estimations d’une proportion dans la population varient d’un échantillon à l’autre, vous allez mettre en place deux expériences d’échantillonnage.

Dans la première expérience, vous allez simuler des échantillons répétés à partir d’une population. Dans la seconde, vous allez choisir un seul échantillon issu de la première expérience et rééchantillonner à plusieurs reprises à partir de cet échantillon : une méthode appelée bootstrapping. Plus précisément :

Expérience 1 : supposez que la proportion réelle de personnes qui voteront pour le candidat X est de 0,6. Échantillonnez à plusieurs reprises 30 personnes dans la population et mesurez la variabilité de \(\hat{p}\) (la proportion dans l’échantillon).

Expérience 2 : tirez un échantillon de taille 30 de la même population. Rééchantillonnez à plusieurs reprises 30 personnes (avec remise !) à partir de l’échantillon initial et mesurez la variabilité de \(\hat{p}^*\) (la proportion dans le rééchantillon).

Il est important de comprendre que la première expérience suppose de connaître la population et est généralement impossible en pratique. La seconde ne repose que sur l’échantillon de données et est donc facile à mettre en œuvre pour n’importe quelle statistique. Heureusement, comme vous allez le voir, la variabilité de \(\hat{p}\), c’est‑à‑dire la proportion de « succès » dans un échantillon, est approximativement la même que l’on échantillonne depuis la population ou que l’on rééchantillonne à partir d’un échantillon.

Nous avons créé 1000 échantillons aléatoires, chacun de taille 30, à partir de la population. Le tableau de données résultant, all_polls, est disponible dans votre espace de travail. Jetez‑y un œil avant de commencer.

Cet exercice fait partie du cours

Bases de l’inférence en R

Afficher le cours

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Compute p-hat for each poll
ex1_props <- all_polls %>% 
  # Group by poll
  ___(___) %>% 
  # Calculate proportion of yes votes
  ___(stat = ___(___))
  
# Review the result
ex1_props
Modifier et exécuter le code