Imputando com random forests
Uma abordagem de Machine Learning para imputação pode ser mais precisa e mais fácil de implementar do que modelos estatísticos tradicionais. Primeiro, ela não exige que você especifique relações entre variáveis. Além disso, modelos de Machine Learning como random forests conseguem descobrir relações altamente complexas e não lineares e usá‑las para prever valores ausentes.
Neste exercício, você vai conhecer o pacote missForest, que constrói uma random forest separada para prever valores ausentes de cada variável, uma a uma. Você vai chamar a função de imputação nos dados de filmes biográficos, biopics, com os quais você já trabalhou ao longo do curso, e então extrair os dados preenchidos e os erros de imputação estimados.
Vamos plantar algumas random forests!
Este exercício faz parte do curso
Tratamento de Dados Ausentes com Imputações em R
Instruções do exercício
- Carregue o pacote
missForest. - Use
missForest()para imputar valores ausentes embiopics; atribua o resultado aimp_res. - Extraia o conjunto de dados imputado de
imp_res, atribua aimp_datae verifique se o número de valores ausentes é de fato zero. - Extraia o erro de imputação estimado de
imp_res, atribua aimp_erre imprima no console.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Load the missForest package
___
# Impute biopics data using missForest
imp_res <- ___(___)
# Extract imputed data and check for missing values
imp_data <- imp_res$___
print(___(___(___)))
# Extract and print imputation errors
imp_err <- imp_res$___
print(___)