Compensação entre velocidade e precisão
No último vídeo, você viu que há dois controles que podem ser ajustados para influenciar o desempenho dos random forests:
- Número de árvores de decisão em cada floresta.
- Número de variáveis usadas para divisão dentro das árvores de decisão.
Aumentar qualquer um deles pode melhorar a precisão do modelo de imputação, mas também exigirá mais tempo de execução. Neste exercício, você vai explorar essas ideias ajustando missForest() ao conjunto de dados biopics duas vezes com configurações diferentes. À medida que segue as instruções, preste atenção aos erros que serão impressos e ao tempo que o código leva para rodar.
Este exercício faz parte do curso
Tratamento de Dados Ausentes com Imputações em R
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Set number of trees to 5 and number of variables used for splitting to 2
imp_res <- missForest(biopics, ___ = ___, ___ = ___)
# Print the resulting imputation errors
print(___)