ComeçarComece de graça

Importância das variáveis

Você já sabe que árvores com bagging são um modelo de ensemble que resolve o problema de variância das árvores de decisão. Agora você aprendeu que o algoritmo de random forest melhora ainda mais isso ao usar apenas um subconjunto aleatório das variáveis em cada árvore. Isso reduz ainda mais a correlação dentro do ensemble, aumentando seu desempenho preditivo.

Neste exercício, você vai construir um random forest e traçar a importância dos preditores usando o pacote vip. Os dados de treino, customers_train, já estão pré-carregados no seu ambiente.

Este exercício faz parte do curso

Machine Learning com modelos baseados em árvores em R

Ver curso

Instruções do exercício

  • Crie spec, a especificação de um modelo de classificação random forest usando o engine "ranger" e a importância de variáveis "impurity".
  • Crie model ajustando o tibble customers_train a spec, usando still_customer como desfecho e todas as outras colunas como variáveis preditoras.
  • Plote a importância das variáveis usando a função vip() do pacote vip (que não está pré-carregado).

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Specify a random forest
spec <- ___ %>%
	set_mode("classification") %>%
    set_engine(___, importance = ___)

# Train the forest
model <- spec %>%
    fit(___,
        ___)

# Plot the variable importance
vip::___(model)
Editar e executar o código