ComeçarComece de graça

Imputando com random forests

Uma abordagem de Machine Learning para imputação pode ser mais precisa e mais fácil de implementar do que modelos estatísticos tradicionais. Primeiro, ela não exige que você especifique relações entre variáveis. Além disso, modelos de Machine Learning como random forests conseguem descobrir relações altamente complexas e não lineares e usá‑las para prever valores ausentes.

Neste exercício, você vai conhecer o pacote missForest, que constrói uma random forest separada para prever valores ausentes de cada variável, uma a uma. Você vai chamar a função de imputação nos dados de filmes biográficos, biopics, com os quais você já trabalhou ao longo do curso, e então extrair os dados preenchidos e os erros de imputação estimados.

Vamos plantar algumas random forests!

Este exercício faz parte do curso

Tratamento de Dados Ausentes com Imputações em R

Ver curso

Instruções do exercício

  • Carregue o pacote missForest.
  • Use missForest() para imputar valores ausentes em biopics; atribua o resultado a imp_res.
  • Extraia o conjunto de dados imputado de imp_res, atribua a imp_data e verifique se o número de valores ausentes é de fato zero.
  • Extraia o erro de imputação estimado de imp_res, atribua a imp_err e imprima no console.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Load the missForest package
___

# Impute biopics data using missForest
imp_res <- ___(___)

# Extract imputed data and check for missing values
imp_data <- imp_res$___
print(___(___(___)))

# Extract and print imputation errors
imp_err <- imp_res$___
print(___)
Editar e executar o código