Échantillonnage aléatoire simple

La méthode la plus simple pour échantillonner une population est celle que vous avez déjà vue. Elle s’appelle échantillonnage aléatoire simple (parfois abrégé en « SRS ») et consiste à sélectionner des lignes au hasard, une par une, en donnant à chaque ligne la même probabilité d’être choisie que les autres.

Pour faciliter l’identification des lignes qui se retrouvent dans l’échantillon, il est utile d’ajouter une colonne d’identifiant de ligne au jeu de données avant de tirer l’échantillon.

Dans ce chapitre, nous étudierons des méthodes d’échantillonnage à l’aide d’un jeu de données synthétique (fictif) d’attrition des employés fourni par IBM, où « attrition » signifie quitter l’entreprise.

attrition_pop est disponible ; dplyr est chargé.

Cet exercice fait partie du cours

Échantillonnage en R

Afficher le cours

Instructions

Affichez le jeu de données attrition_pop. Explorez-le dans le visualiseur jusqu’à bien comprendre ce qu’il contient.
Définissez la graine aléatoire avec la valeur de votre choix.
Ajoutez une colonne d’identifiant de ligne, puis utilisez l’échantillonnage aléatoire simple pour obtenir 200 lignes.
Affichez le jeu de données échantillonné, attrition_samp. Que remarquez-vous à propos des identifiants de ligne ?

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# View the attrition_pop dataset
___

# Set the seed
___

attrition_samp <- attrition_pop %>% 
  # Add a row ID column
  ___ %>% 
  # Get 200 rows using simple random sampling
  ___

# View the attrition_samp dataset
___

Modifier et exécuter le code