Il flusso di mice: mice - with - pool
La multiple imputation by chained equations, o MICE, ci permette di stimare l'incertezza dovuta all'imputazione imputando più volte un insieme di dati con un'imputazione basata su modello, estraendo dalle distribuzioni condizionate. In questo modo, ogni insieme di dati imputato risulta leggermente diverso. Successivamente, si conduce un'analisi su ciascuno di essi e i risultati vengono combinati, ottenendo le quantità di interesse insieme ai loro intervalli di confidenza che riflettono l'incertezza dell'imputazione.
In questo esercizio, metterai in pratica il tipico flusso MICE: mice() - with() - pool(). Eseguirai un'analisi di regressione sui dati biopics per vedere quale occupazione del soggetto, sub_type, è associata ai maggiori incassi del film. Divertiamoci con mice!
Questo esercizio fa parte del corso
Gestione dei dati mancanti con imputazioni in R
Istruzioni dell'esercizio
- Carica il pacchetto
micee imputabiopicsconmice()usando 5 imputazioni, assegnando il risultato abiopics_multiimp. - Adatta un modello di regressione lineare che spiega
earningsusandoyearesub_typeper ciascun insieme di dati imputato, assegnando il risultato alm_multiimp. - Combina insieme i modelli di regressione salvati in
lm_multiimp, assegnando il risultato alm_pooled. - Riassumi
lm_pooledin modo che produca intervalli di confidenza con un livello di confidenza del 95%.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Load mice package
___
# Impute biopics with mice using 5 imputations
biopics_multiimp <- ___(___, m = ___, seed = 3108)
# Fit linear regression to each imputed data set
lm_multiimp <- ___(___, ___)
# Pool and summarize regression results
lm_pooled <- ___(___)
___(___, conf.int = ___, conf.level = ___)