De mice-flow: mice - with - pool
Multiple imputation by chained equations (MICE) laat je de onzekerheid door imputatie inschatten door een gegevensset meerdere keren te imputeren met modelgebaseerde imputatie, waarbij wordt getrokken uit conditionele verdelingen. Zo wordt elke geïmputeerde gegevensset net iets anders. Daarna voer je op elk daarvan een analyse uit en pool je de resultaten, zodat je de grootheden van interesse krijgt, samen met hun betrouwbaarheidsintervallen die de imputatie-onzekerheid weerspiegelen.
In deze oefening ga je de typische MICE-flow oefenen: mice() - with() - pool(). Je voert een regressieanalyse uit op de biopics-data om te zien welk beroep van het onderwerp, sub_type, samenhangt met de hoogste opbrengst van films. Aan de slag met mice!
Deze oefening maakt deel uit van de cursus
Omgaan met missende data met imputaties in R
Oefeninstructies
- Laad het pakket
miceen imputeerbiopicsmetmice()met 5 imputaties. Sla het resultaat op alsbiopics_multiimp. - Fit voor elke geïmputeerde gegevensset een lineair regressiemodel dat
earningsverklaart metyearensub_type, en sla het resultaat op alslm_multiimp. - Pool de regressiemodellen in
lm_multiimpsamen en sla het resultaat op alslm_pooled. - Maak een samenvatting van
lm_pooleddie betrouwbaarheidsintervallen produceert met een betrouwbaarheidsniveau van 95%.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Load mice package
___
# Impute biopics with mice using 5 imputations
biopics_multiimp <- ___(___, m = ___, seed = 3108)
# Fit linear regression to each imputed data set
lm_multiimp <- ___(___, ___)
# Pool and summarize regression results
lm_pooled <- ___(___)
___(___, conf.int = ___, conf.level = ___)