Importanza delle variabili
Sai già che gli alberi bagging sono un modello ensemble che supera il problema della varianza dei decision tree. Ora hai imparato che l’algoritmo random forest migliora ulteriormente usando solo un sottoinsieme casuale delle caratteristiche in ciascun albero. Questo decorrela ancora di più l’ensemble, migliorandone le prestazioni predittive.
In questo esercizio, costruirai una random forest e traccerai l’importanza dei predittori usando il pacchetto vip. I dati di training, customers_train, sono già caricati nel tuo workspace.
Questo esercizio fa parte del corso
Machine Learning con modelli ad albero in R
Istruzioni dell'esercizio
- Crea
spec, la specifica di un modello di classificazione random forest usando il motore"ranger"e l’importanza delle variabili basata su"impurity". - Crea
modeladattando il tibblecustomers_trainaspecusandostill_customercome variabile di esito e tutte le altre colonne come variabili predittive. - Rappresenta l’importanza delle variabili usando la funzione
vip()del pacchettovip(che non è pre-caricato).
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Specify a random forest
spec <- ___ %>%
set_mode("classification") %>%
set_engine(___, importance = ___)
# Train the forest
model <- spec %>%
fit(___,
___)
# Plot the variable importance
vip::___(model)