Aan de slagGa gratis aan de slag

De mice-flow: mice - with - pool

Multiple imputation by chained equations (MICE) laat je de onzekerheid door imputatie inschatten door een gegevensset meerdere keren te imputeren met modelgebaseerde imputatie, waarbij wordt getrokken uit conditionele verdelingen. Zo wordt elke geïmputeerde gegevensset net iets anders. Daarna voer je op elk daarvan een analyse uit en pool je de resultaten, zodat je de grootheden van interesse krijgt, samen met hun betrouwbaarheidsintervallen die de imputatie-onzekerheid weerspiegelen.

In deze oefening ga je de typische MICE-flow oefenen: mice() - with() - pool(). Je voert een regressieanalyse uit op de biopics-data om te zien welk beroep van het onderwerp, sub_type, samenhangt met de hoogste opbrengst van films. Aan de slag met mice!

Deze oefening maakt deel uit van de cursus

Omgaan met missende data met imputaties in R

Cursus bekijken

Oefeninstructies

  • Laad het pakket mice en imputeer biopics met mice() met 5 imputaties. Sla het resultaat op als biopics_multiimp.
  • Fit voor elke geïmputeerde gegevensset een lineair regressiemodel dat earnings verklaart met year en sub_type, en sla het resultaat op als lm_multiimp.
  • Pool de regressiemodellen in lm_multiimp samen en sla het resultaat op als lm_pooled.
  • Maak een samenvatting van lm_pooled die betrouwbaarheidsintervallen produceert met een betrouwbaarheidsniveau van 95%.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Load mice package
___

# Impute biopics with mice using 5 imputations
biopics_multiimp <- ___(___, m = ___, seed = 3108)

# Fit linear regression to each imputed data set 
lm_multiimp <- ___(___, ___)

# Pool and summarize regression results
lm_pooled <- ___(___)
___(___, conf.int = ___, conf.level = ___)
Code bewerken en uitvoeren