Test t pour MAR : préparation des données
Excellent travail pour avoir classé les mécanismes de données manquantes dans le dernier exercice ! Parmi les trois, MAR est sans doute le plus important à détecter, car de nombreuses méthodes d’imputation supposent que les données sont MAR. Cet exercice se concentre donc sur le test de MAR.
Vous allez travailler avec les données familières de biopics. L’objectif est de tester si le nombre de valeurs manquantes dans earnings diffère selon le genre du sujet. Dans cet exercice, vous ne ferez que préparer les données pour le test t. Vous allez d’abord créer une variable indicatrice (dummy) signalant l’absence de valeur dans earnings. Ensuite, vous la scinderez par genre en filtrant d’abord les données pour ne conserver qu’un des genres, puis en extrayant la variable indicatrice. Pour le filtrage, il peut être utile d’imprimer le head() de biopics dans la console et d’examiner la variable du genre.
Cet exercice fait partie du cours
Gérer les données manquantes avec des imputations en R
Instructions
- Ajoutez à
biopicsune autre variable appeléemissing_earningsqui vautTRUEsiearningsest manquant etFALSEsinon. - Créez un vecteur des valeurs
missing_earningspour les hommes et affectez-le àmissing_earnings_males. - Créez un vecteur des valeurs
missing_earningspour les femmes et affectez-le àmissing_earnings_females.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create a dummy variable for missing earnings
biopics <- biopics %>%
___(missing_earnings = ___(___))
# Pull the missing earnings dummy for males
missing_earnings_males <- biopics %>%
___(___) %>%
___(___)
# Pull the missing earnings dummy for females
missing_earnings_females <- biopics %>%
___(___) %>%
___(___)