t-test für MAR: Datenaufbereitung

Starke Leistung bei der Einordnung der Mechanismen fehlender Daten in der letzten Übung! Von allen dreien ist MAR vermutlich der wichtigste, den es zu erkennen gilt, da viele Imputationsverfahren davon ausgehen, dass die Daten MAR sind. Diese Übung konzentriert sich daher auf das Testen auf MAR.

Du arbeitest mit den vertrauten biopics-Daten. Ziel ist es zu testen, ob sich die Anzahl fehlender Werte in earnings nach dem Geschlecht der dargestellten Person unterscheidet. In dieser Übung bereitest du nur die Daten für den t-test vor. Zuerst erstellst du eine Dummy-Variable, die fehlende Werte in earnings kennzeichnet. Danach teilst du sie nach Geschlecht auf, indem du die Daten zunächst auf eines der Geschlechter filterst und anschließend die Dummy-Variable herausziehst. Zum Filtern kann es hilfreich sein, dir in der Konsole das head() von biopics ausgeben zu lassen und die Geschlechtsvariable anzuschauen.

Diese Übung ist Teil des Kurses

<Kurs>Fehlende Daten mit Imputationen in R behandeln</Kurs>

Übungsanweisungen

Füge biopics eine weitere Variable namens missing_earnings hinzu, die TRUE ist, wenn earnings fehlt, und sonst FALSE.
Erstelle einen Vektor der missing_earnings-Werte für Männer und weise ihn missing_earnings_males zu.
Erstelle einen Vektor der missing_earnings-Werte für Frauen und weise ihn missing_earnings_females zu.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Create a dummy variable for missing earnings
biopics <- biopics %>% 
  ___(missing_earnings = ___(___))

# Pull the missing earnings dummy for males
missing_earnings_males <- biopics %>% 
  ___(___) %>% 
  ___(___)

# Pull the missing earnings dummy for females
missing_earnings_females <- biopics %>% 
  ___(___) %>% 
  ___(___)

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

<Kurs>Fehlende Daten mit Imputationen in R behandeln</Kurs>

Hohe SchwierigkeitSchwierigkeitsgrad

4.8+

Kurs kostenlos starten

In diesem Kapitel findest du heraus, warum fehlende Daten ein Risiko bei der Analyse eines Datensatzes darstellen können. Du lernst die drei Mechanismen fehlender Daten kennen und erfährst, wie du sie mit statistischen Tests und Visualisierungstools erkennst.

Exercise 1: Fehlende Daten: Was kann schiefgehen Exercise 2: Lineare Regression mit unvollständigen Daten Exercise 3: Regressionsausgabe analysieren Exercise 4: Modelle vergleichen Exercise 5: Mechanismen fehlender Daten Exercise 6: Fehlende-Daten-Mechanismen erkennen Exercise 7: t-test für MAR: Datenaufbereitung

Aktuelle Übung

Exercise 8: t-test für MAR: Interpretation Exercise 9: Fehlende Datenmuster visualisieren Exercise 10: Aggregations-Plot Exercise 11: Spine-Plot Exercise 12: Mosaikdiagramm

Lerne die Taxonomie der Imputationsmethoden kennen und drei spenderbasierte Techniken: Mittelwert-, Hot-Deck- und k-Nearest-Neighbors-Imputation. Du wirfst einen Blick unter die Haube, um zu sehen, wie diese Methoden funktionieren, bevor du lernst, wie du sie auf einen realen Datensatz zu tropischem Wetter anwendest. Unterwegs entdeckst du außerdem nützliche Tricks, mit denen du sie für deine Aufgaben noch besser einsetzen kannst.

Exercise 1: Mittelwertimputation Exercise 2: Die Gefahr der Mittelwertimputation erkennen Exercise 3: Mittelwert-Imputation der Temperatur Exercise 4: Imputationsqualität mit Margin-Plot beurteilen Exercise 5: Hot-Deck-Imputation Exercise 6: Vanilla Hot-Deck Exercise 7: Hot-Deck: Tricks & Tipps I – Imputieren innerhalb von Domänen Exercise 8: Hot-Deck: Tipps & Tricks II – Sortieren nach korrelierten Variablen Exercise 9: k-Nearest-Neighbors-Imputation Exercise 10: Die Anzahl der Nachbarn wählen Exercise 11: kNN Tipps & Tricks I: Spender gewichten Exercise 12: kNN Tipps & Tricks II: Variablen sortieren

Jetzt lernst du, wie du statistische und Machine-Learning-Modelle wie lineare Regression, logistische Regression und Random Forests zur Imputation fehlender Daten nutzt. In diesem Kapitel schaust du dir an, wie die Modelle ihre Vorhersagen treffen, und nutzt dieses Wissen, um die imputierten Werte aus konditionalen Verteilungen zu ziehen. Das ist wichtig, weil es deine Imputationen vielfältiger und plausibler macht – und damit den echten Daten ähnlicher.

Exercise 1: Modellbasierter Imputationsansatz Exercise 2: Imputation mit linearer Regression Exercise 3: Fehlende Werte initialisieren & über Variablen iterieren Exercise 4: Konvergenz erkennen Exercise 5: Datenvariabilität nachbilden Exercise 6: Imputation mit logistischer Regression Exercise 7: Ziehen aus der bedingten Verteilung Exercise 8: Modellbasierte Imputation mit mehreren Variablentypen Exercise 9: Baumbasierte Imputation Exercise 10: Imputieren mit Random Forests Exercise 11: Variablenweise Imputationsfehler Exercise 12: Abwägung zwischen Geschwindigkeit und Genauigkeit

Imputierte Werte sind nicht in Stein gemeißelt. Es sind Schätzwerte, und Schätzungen gehen mit Unsicherheit einher. In diesem letzten Kapitel entdeckst du, wie Bootstrapping und verkettete Gleichungen mit dem Paket mice verwendet werden können, um die Imputationsunsicherheit in deine Modelle und Analysen zu integrieren und sie dadurch verlässlicher und robuster zu machen.

Exercise 1: Multiple Imputation mit Bootstrapping Exercise 2: Imputation und Modellierung in einer Funktion kapseln Exercise 3: Den Bootstrap ausführen Exercise 4: Konfidenzintervalle per Bootstrapping Exercise 5: Multiple Imputation mit verketteten Gleichungen Exercise 6: Der mice‑Flow: mice - with - pool Exercise 7: Standardmodelle auswählen Exercise 8: Verwendung der Prädiktormatrix Exercise 9: Alles zusammenführen Exercise 10: Fehlendheitsmuster analysieren Exercise 11: Imputing and inspecting outcomes Exercise 12: Schlussfolgern mit imputierten Daten Exercise 13: Abschlussbemerkungen