LoslegenKostenlos loslegen

Der mice‑Flow: mice - with - pool

Multiple Imputation mittels verketteter Gleichungen (MICE) erlaubt es, die Unsicherheit der Imputation zu berücksichtigen, indem ein Datensatz mehrfach modellbasiert imputiert wird, wobei aus bedingten Verteilungen gezogen wird. So ist jeder imputierte Datensatz leicht unterschiedlich. Anschließend wird auf jedem Datensatz eine Analyse durchgeführt und die Ergebnisse werden zusammengeführt (gepoolt). Dadurch erhältst du die interessierenden Kennzahlen zusammen mit Konfidenzintervallen, die die Imputationsunsicherheit widerspiegeln.

In dieser Übung übst du den typischen MICE‑Flow: mice() - with() - pool(). Du führst eine Regressionsanalyse auf den biopics-Daten durch, um zu sehen, welche Berufsgruppe, sub_type, mit den höchsten Filmeinnahmen verbunden ist. Let's play with mice!

Diese Übung ist Teil des Kurses

Fehlende Daten mit Imputationen in R behandeln

Kurs anzeigen

Anleitung zur Übung

  • Lade das Paket mice und imputiere biopics mit mice() unter Verwendung von 5 Imputationen. Weise das Ergebnis biopics_multiimp zu.
  • Schätze für jeden imputierten Datensatz ein lineares Regressionsmodell, das earnings mit year und sub_type erklärt, und speichere das Ergebnis in lm_multiimp.
  • Führe die in lm_multiimp gespeicherten Regressionsmodelle zusammen (pooling) und speichere das Ergebnis in lm_pooled.
  • Fasse lm_pooled so zusammen, dass 95-%-Konfidenzintervalle ausgegeben werden.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Load mice package
___

# Impute biopics with mice using 5 imputations
biopics_multiimp <- ___(___, m = ___, seed = 3108)

# Fit linear regression to each imputed data set 
lm_multiimp <- ___(___, ___)

# Pool and summarize regression results
lm_pooled <- ___(___)
___(___, conf.int = ___, conf.level = ___)
Code bearbeiten und ausführen