Échantillonnage aléatoire simple
La méthode la plus simple pour échantillonner une population est celle que vous avez déjà vue. Elle s’appelle échantillonnage aléatoire simple (parfois abrégé en « SRS ») et consiste à sélectionner des lignes au hasard, une par une, en donnant à chaque ligne la même probabilité d’être choisie que les autres.
Pour faciliter l’identification des lignes qui se retrouvent dans l’échantillon, il est utile d’ajouter une colonne d’identifiant de ligne au jeu de données avant de tirer l’échantillon.
Dans ce chapitre, nous étudierons des méthodes d’échantillonnage à l’aide d’un jeu de données synthétique (fictif) d’attrition des employés fourni par IBM, où « attrition » signifie quitter l’entreprise.
attrition_pop est disponible ; dplyr est chargé.
Cet exercice fait partie du cours
Échantillonnage en R
Instructions
- Affichez le jeu de données
attrition_pop. Explorez-le dans le visualiseur jusqu’à bien comprendre ce qu’il contient. - Définissez la graine aléatoire avec la valeur de votre choix.
- Ajoutez une colonne d’identifiant de ligne, puis utilisez l’échantillonnage aléatoire simple pour obtenir 200 lignes.
- Affichez le jeu de données échantillonné,
attrition_samp. Que remarquez-vous à propos des identifiants de ligne ?
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# View the attrition_pop dataset
___
# Set the seed
___
attrition_samp <- attrition_pop %>%
# Add a row ID column
___ %>%
# Get 200 rows using simple random sampling
___
# View the attrition_samp dataset
___