t-test für MAR: Datenaufbereitung
Starke Leistung bei der Einordnung der Mechanismen fehlender Daten in der letzten Übung! Von allen dreien ist MAR vermutlich der wichtigste, den es zu erkennen gilt, da viele Imputationsverfahren davon ausgehen, dass die Daten MAR sind. Diese Übung konzentriert sich daher auf das Testen auf MAR.
Du arbeitest mit den vertrauten biopics-Daten. Ziel ist es zu testen, ob sich die Anzahl fehlender Werte in earnings nach dem Geschlecht der dargestellten Person unterscheidet. In dieser Übung bereitest du nur die Daten für den t-test vor. Zuerst erstellst du eine Dummy-Variable, die fehlende Werte in earnings kennzeichnet. Danach teilst du sie nach Geschlecht auf, indem du die Daten zunächst auf eines der Geschlechter filterst und anschließend die Dummy-Variable herausziehst. Zum Filtern kann es hilfreich sein, dir in der Konsole das head() von biopics ausgeben zu lassen und die Geschlechtsvariable anzuschauen.
Diese Übung ist Teil des Kurses
Fehlende Daten mit Imputationen in R behandeln
Anleitung zur Übung
- Füge
biopicseine weitere Variable namensmissing_earningshinzu, dieTRUEist, wennearningsfehlt, und sonstFALSE. - Erstelle einen Vektor der
missing_earnings-Werte für Männer und weise ihnmissing_earnings_maleszu. - Erstelle einen Vektor der
missing_earnings-Werte für Frauen und weise ihnmissing_earnings_femaleszu.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Create a dummy variable for missing earnings
biopics <- biopics %>%
___(missing_earnings = ___(___))
# Pull the missing earnings dummy for males
missing_earnings_males <- biopics %>%
___(___) %>%
___(___)
# Pull the missing earnings dummy for females
missing_earnings_females <- biopics %>%
___(___) %>%
___(___)