Importância das variáveis
Você já sabe que árvores com bagging são um modelo de ensemble que resolve o problema de variância das árvores de decisão. Agora você aprendeu que o algoritmo de random forest melhora ainda mais isso ao usar apenas um subconjunto aleatório das variáveis em cada árvore. Isso reduz ainda mais a correlação dentro do ensemble, aumentando seu desempenho preditivo.
Neste exercício, você vai construir um random forest e traçar a importância dos preditores usando o pacote vip. Os dados de treino, customers_train, já estão pré-carregados no seu ambiente.
Este exercício faz parte do curso
Machine Learning com modelos baseados em árvores em R
Instruções do exercício
- Crie
spec, a especificação de um modelo de classificação random forest usando o engine"ranger"e a importância de variáveis"impurity". - Crie
modelajustando o tibblecustomers_trainaspec, usandostill_customercomo desfecho e todas as outras colunas como variáveis preditoras. - Plote a importância das variáveis usando a função
vip()do pacotevip(que não está pré-carregado).
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Specify a random forest
spec <- ___ %>%
set_mode("classification") %>%
set_engine(___, importance = ___)
# Train the forest
model <- spec %>%
fit(___,
___)
# Plot the variable importance
vip::___(model)