Crea un modello random forest completo

I modelli random forest eseguono naturalmente la selezione delle caratteristiche perché costruiscono molti sottoalberi a partire da sottoinsiemi casuali delle feature. Un modo per capire l’importanza delle feature è creare un modello ed estrarne poi le importanze. In questo esercizio userai i dati Healthcare Job Attrition per addestrare un modello di classificazione rand_forest() da cui potrai estrarre le importanze delle feature. Per rendere disponibili le importanze, assicurati di creare il modello con importance = "impurity". I set train e test sono a tua disposizione.

I pacchetti tidyverse, tidymodels e vip sono già stati caricati per te.

Questo esercizio fa parte del corso

Riduzione della dimensionalità in R

Visualizza corso

Istruzioni dell'esercizio

Definisci un modello random forest di classificazione con 200 alberi, dal quale poter estrarre le importanze delle feature.
Esegui il fit del modello random forest con tutti i predittori.
Unisci le previsioni al test set.
Calcola la metrica F1.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Specify the random forest model
rf_spec <- ___(mode = "___", ___ = ___) %>% 
  set_engine("___", ___ = "___") 

# Fit the random forest model with all predictors
rf_fit <- ___ %>% 
  ___(___, data = ___)

# Create the test set prediction data frame
predict_df <- ___ %>% 
  bind_cols(predict = ___(___, ___))

# Calculate F1 performance
f_meas(predict_df, ___, .pred_class)

Modifica ed esegui il codice