t-toets voor MAR: datavoorbereiding
Goed gedaan met het classificeren van de mechanismen van ontbrekende data in de vorige oefening! Van de drie is MAR waarschijnlijk de belangrijkste om te detecteren, omdat veel imputatiemethoden aannemen dat de data MAR zijn. Deze oefening richt zich daarom op het testen van MAR.
Je werkt met de bekende biopics-data. Het doel is te testen of het aantal ontbrekende waarden in earnings verschilt per geslacht van de persoon. In deze oefening bereid je alleen de data voor de t-toets voor. Eerst maak je een dummyvariabele die aangeeft of earnings ontbreekt. Daarna splits je deze per geslacht door eerst te filteren op één van de geslachten en vervolgens de dummyvariabele te pullen. Voor het filteren kan het handig zijn om in de console head() van biopics af te drukken en de variabele voor geslacht te bekijken.
Deze oefening maakt deel uit van de cursus
Omgaan met missende data met imputaties in R
Oefeninstructies
- Voeg aan
biopicseen extra variabele toe,missing_earnings, dieTRUEis alsearningsontbreekt en andersFALSE. - Maak een vector met
missing_earnings-waarden voor mannen en wijs die toe aanmissing_earnings_males. - Maak een vector met
missing_earnings-waarden voor vrouwen en wijs die toe aanmissing_earnings_females.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Create a dummy variable for missing earnings
biopics <- biopics %>%
___(missing_earnings = ___(___))
# Pull the missing earnings dummy for males
missing_earnings_males <- biopics %>%
___(___) %>%
___(___)
# Pull the missing earnings dummy for females
missing_earnings_females <- biopics %>%
___(___) %>%
___(___)