Reduza os dados usando importâncias de variáveis
Agora que você criou um modelo de random forest completo, você vai explorar a importância das variáveis.
Embora modelos de random forest naturalmente — porém de forma implícita — façam seleção de variáveis, muitas vezes é vantajoso construir um modelo reduzido. Um modelo reduzido treina mais rápido, gera previsões mais rapidamente e é mais fácil de entender e gerenciar. Claro, sempre existe um equilíbrio entre simplicidade do modelo e desempenho do modelo.
Neste exercício, você vai reduzir o conjunto de dados. No próximo exercício, você vai ajustar um modelo reduzido e comparar seu desempenho com o modelo completo. rf_fit, train e test já estão disponíveis para você.
Os pacotes tidyverse, tidymodels e vip já foram carregados para você.
Este exercício faz parte do curso
Redução de Dimensionalidade em R
Instruções do exercício
- Use
vi()com o parâmetrorankpara extrair as dez variáveis mais importantes. - Adicione a variável alvo de volta à lista de principais variáveis.
- Aplique a máscara das principais variáveis para reduzir os conjuntos de dados.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Extract the top ten features
top_features <- ___ %>%
___(___ = ___) %>%
filter(___) %>%
pull(Variable)
# Add the target variable to the feature list
top_features <- c(___, "___")
# Reduce and print the data sets
train_reduced <- train[___]
test_reduced <- ___[___]
train_reduced %>% head(5)
test_reduced %>% head(5)