O fluxo do mice: mice - with - pool
A imputação múltipla por equações encadeadas, ou MICE, permite estimar a incerteza da imputação ao imputar um conjunto de dados várias vezes com imputação baseada em modelos, amostrando de distribuições condicionais. Assim, cada conjunto de dados imputado fica um pouco diferente. Em seguida, realizamos uma análise em cada um deles e combinamos os resultados, obtendo as quantidades de interesse junto com seus intervalos de confiança, que refletem a incerteza da imputação.
Neste exercício, você vai praticar o fluxo típico do MICE: mice() - with() - pool(). Você fará uma análise de regressão nos dados biopics para ver qual ocupação do biografado, sub_type, está associada ao maior faturamento do filme. Vamos brincar com o mice!
Este exercício faz parte do curso
Tratamento de Dados Ausentes com Imputações em R
Instruções do exercício
- Carregue o pacote
micee imputebiopicscommice()usando 5 imputações, atribuindo o resultado abiopics_multiimp. - Ajuste um modelo de regressão linear que explique
earningsusandoyearesub_typepara cada conjunto de dados imputado, atribuindo o resultado alm_multiimp. - Una os modelos de regressão salvos em
lm_multiimp, atribuindo o resultado alm_pooled. - Resuma
lm_pooledde modo que ele produza intervalos de confiança com nível de confiança de 95%.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Load mice package
___
# Impute biopics with mice using 5 imputations
biopics_multiimp <- ___(___, m = ___, seed = 3108)
# Fit linear regression to each imputed data set
lm_multiimp <- ___(___, ___)
# Pool and summarize regression results
lm_pooled <- ___(___)
___(___, conf.int = ___, conf.level = ___)