IniziaInizia gratis

Il flusso di mice: mice - with - pool

La multiple imputation by chained equations, o MICE, ci permette di stimare l'incertezza dovuta all'imputazione imputando più volte un insieme di dati con un'imputazione basata su modello, estraendo dalle distribuzioni condizionate. In questo modo, ogni insieme di dati imputato risulta leggermente diverso. Successivamente, si conduce un'analisi su ciascuno di essi e i risultati vengono combinati, ottenendo le quantità di interesse insieme ai loro intervalli di confidenza che riflettono l'incertezza dell'imputazione.

In questo esercizio, metterai in pratica il tipico flusso MICE: mice() - with() - pool(). Eseguirai un'analisi di regressione sui dati biopics per vedere quale occupazione del soggetto, sub_type, è associata ai maggiori incassi del film. Divertiamoci con mice!

Questo esercizio fa parte del corso

Gestione dei dati mancanti con imputazioni in R

Visualizza il corso

Istruzioni dell'esercizio

  • Carica il pacchetto mice e imputa biopics con mice() usando 5 imputazioni, assegnando il risultato a biopics_multiimp.
  • Adatta un modello di regressione lineare che spiega earnings usando year e sub_type per ciascun insieme di dati imputato, assegnando il risultato a lm_multiimp.
  • Combina insieme i modelli di regressione salvati in lm_multiimp, assegnando il risultato a lm_pooled.
  • Riassumi lm_pooled in modo che produca intervalli di confidenza con un livello di confidenza del 95%.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Load mice package
___

# Impute biopics with mice using 5 imputations
biopics_multiimp <- ___(___, m = ___, seed = 3108)

# Fit linear regression to each imputed data set 
lm_multiimp <- ___(___, ___)

# Pool and summarize regression results
lm_pooled <- ___(___)
___(___, conf.int = ___, conf.level = ___)
Modifica ed esegui il codice