Crea un modello random forest completo
I modelli random forest eseguono naturalmente la selezione delle caratteristiche perché costruiscono molti sottoalberi a partire da sottoinsiemi casuali delle feature. Un modo per capire l’importanza delle feature è creare un modello ed estrarne poi le importanze. In questo esercizio userai i dati Healthcare Job Attrition per addestrare un modello di classificazione rand_forest() da cui potrai estrarre le importanze delle feature. Per rendere disponibili le importanze, assicurati di creare il modello con importance = "impurity". I set train e test sono a tua disposizione.
I pacchetti tidyverse, tidymodels e vip sono già stati caricati per te.
Questo esercizio fa parte del corso
Riduzione della dimensionalità in R
Istruzioni dell'esercizio
- Definisci un modello random forest di classificazione con 200 alberi, dal quale poter estrarre le importanze delle feature.
- Esegui il fit del modello random forest con tutti i predittori.
- Unisci le previsioni al test set.
- Calcola la metrica F1.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Specify the random forest model
rf_spec <- ___(mode = "___", ___ = ___) %>%
set_engine("___", ___ = "___")
# Fit the random forest model with all predictors
rf_fit <- ___ %>%
___(___, data = ___)
# Create the test set prediction data frame
predict_df <- ___ %>%
bind_cols(predict = ___(___, ___))
# Calculate F1 performance
f_meas(predict_df, ___, .pred_class)