Reduza os dados usando importâncias de variáveis

Agora que você criou um modelo de random forest completo, você vai explorar a importância das variáveis.

Embora modelos de random forest naturalmente — porém de forma implícita — façam seleção de variáveis, muitas vezes é vantajoso construir um modelo reduzido. Um modelo reduzido treina mais rápido, gera previsões mais rapidamente e é mais fácil de entender e gerenciar. Claro, sempre existe um equilíbrio entre simplicidade do modelo e desempenho do modelo.

Neste exercício, você vai reduzir o conjunto de dados. No próximo exercício, você vai ajustar um modelo reduzido e comparar seu desempenho com o modelo completo. rf_fit, train e test já estão disponíveis para você.

Os pacotes tidyverse, tidymodels e vip já foram carregados para você.

Este exercicio faz parte do curso

Redução de Dimensionalidade em R

Ver curso

Instruções do exercicio

Use vi() com o parâmetro rank para extrair as dez variáveis mais importantes.
Adicione a variável alvo de volta à lista de principais variáveis.
Aplique a máscara das principais variáveis para reduzir os conjuntos de dados.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Extract the top ten features
top_features <- ___ %>% 
  ___(___ = ___) %>% 
  filter(___) %>% 
  pull(Variable)

# Add the target variable to the feature list
top_features <- c(___, "___")

# Reduce and print the data sets
train_reduced <- train[___]
test_reduced <- ___[___]
train_reduced %>% head(5)
test_reduced %>% head(5)

Editar e Executar Código