Criar modelo completo de random forest
Modelos de random forest fazem seleção de variáveis naturalmente ao construir várias subárvores a partir de subconjuntos aleatórios de variáveis. Uma forma de entender as importâncias das variáveis é treinar um modelo e depois extrair essas importâncias. Neste exercício, você vai usar os dados de Healthcare Job Attrition para treinar um modelo de classificação rand_forest() do qual poderá extrair as importâncias das variáveis. Para disponibilizar as importâncias, certifique-se de criar o modelo com importance = "impurity". Os conjuntos train e test estão disponíveis para você.
Os pacotes tidyverse, tidymodels e vip já foram carregados para você.
Este exercício faz parte do curso
Redução de Dimensionalidade em R
Instruções do exercício
- Defina um modelo de classificação random forest com 200 árvores que permita extrair importâncias de variáveis.
- Ajuste o modelo de random forest com todos os preditores.
- Una as previsões ao conjunto de teste.
- Calcule a métrica F1.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Specify the random forest model
rf_spec <- ___(mode = "___", ___ = ___) %>%
set_engine("___", ___ = "___")
# Fit the random forest model with all predictors
rf_fit <- ___ %>%
___(___, data = ___)
# Create the test set prediction data frame
predict_df <- ___ %>%
bind_cols(predict = ___(___, ___))
# Calculate F1 performance
f_meas(predict_df, ___, .pred_class)