Der mice‑Flow: mice - with - pool
Multiple Imputation mittels verketteter Gleichungen (MICE) erlaubt es, die Unsicherheit der Imputation zu berücksichtigen, indem ein Datensatz mehrfach modellbasiert imputiert wird, wobei aus bedingten Verteilungen gezogen wird. So ist jeder imputierte Datensatz leicht unterschiedlich. Anschließend wird auf jedem Datensatz eine Analyse durchgeführt und die Ergebnisse werden zusammengeführt (gepoolt). Dadurch erhältst du die interessierenden Kennzahlen zusammen mit Konfidenzintervallen, die die Imputationsunsicherheit widerspiegeln.
In dieser Übung übst du den typischen MICE‑Flow: mice() - with() - pool(). Du führst eine Regressionsanalyse auf den biopics-Daten durch, um zu sehen, welche Berufsgruppe, sub_type, mit den höchsten Filmeinnahmen verbunden ist. Let's play with mice!
Diese Übung ist Teil des Kurses
Fehlende Daten mit Imputationen in R behandeln
Anleitung zur Übung
- Lade das Paket
miceund imputierebiopicsmitmice()unter Verwendung von 5 Imputationen. Weise das Ergebnisbiopics_multiimpzu. - Schätze für jeden imputierten Datensatz ein lineares Regressionsmodell, das
earningsmityearundsub_typeerklärt, und speichere das Ergebnis inlm_multiimp. - Führe die in
lm_multiimpgespeicherten Regressionsmodelle zusammen (pooling) und speichere das Ergebnis inlm_pooled. - Fasse
lm_pooledso zusammen, dass 95-%-Konfidenzintervalle ausgegeben werden.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Load mice package
___
# Impute biopics with mice using 5 imputations
biopics_multiimp <- ___(___, m = ___, seed = 3108)
# Fit linear regression to each imputed data set
lm_multiimp <- ___(___, ___)
# Pool and summarize regression results
lm_pooled <- ___(___)
___(___, conf.int = ___, conf.level = ___)