CommencerCommencer gratuitement

Test t pour MAR : préparation des données

Excellent travail pour avoir classé les mécanismes de données manquantes dans le dernier exercice ! Parmi les trois, MAR est sans doute le plus important à détecter, car de nombreuses méthodes d’imputation supposent que les données sont MAR. Cet exercice se concentre donc sur le test de MAR.

Vous allez travailler avec les données familières de biopics. L’objectif est de tester si le nombre de valeurs manquantes dans earnings diffère selon le genre du sujet. Dans cet exercice, vous ne ferez que préparer les données pour le test t. Vous allez d’abord créer une variable indicatrice (dummy) signalant l’absence de valeur dans earnings. Ensuite, vous la scinderez par genre en filtrant d’abord les données pour ne conserver qu’un des genres, puis en extrayant la variable indicatrice. Pour le filtrage, il peut être utile d’imprimer le head() de biopics dans la console et d’examiner la variable du genre.

Cet exercice fait partie du cours

Gérer les données manquantes avec des imputations en R

Afficher le cours

Instructions

  • Ajoutez à biopics une autre variable appelée missing_earnings qui vaut TRUE si earnings est manquant et FALSE sinon.
  • Créez un vecteur des valeurs missing_earnings pour les hommes et affectez-le à missing_earnings_males.
  • Créez un vecteur des valeurs missing_earnings pour les femmes et affectez-le à missing_earnings_females.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Create a dummy variable for missing earnings
biopics <- biopics %>% 
  ___(missing_earnings = ___(___))

# Pull the missing earnings dummy for males
missing_earnings_males <- biopics %>% 
  ___(___) %>% 
  ___(___)

# Pull the missing earnings dummy for females
missing_earnings_females <- biopics %>% 
  ___(___) %>% 
  ___(___)
Modifier et exécuter le code