IniziaInizia gratis

Importanza delle variabili

Sai già che gli alberi bagging sono un modello ensemble che supera il problema della varianza dei decision tree. Ora hai imparato che l’algoritmo random forest migliora ulteriormente usando solo un sottoinsieme casuale delle caratteristiche in ciascun albero. Questo decorrela ancora di più l’ensemble, migliorandone le prestazioni predittive.

In questo esercizio, costruirai una random forest e traccerai l’importanza dei predittori usando il pacchetto vip. I dati di training, customers_train, sono già caricati nel tuo workspace.

Questo esercizio fa parte del corso

Machine Learning con modelli ad albero in R

Visualizza il corso

Istruzioni dell'esercizio

  • Crea spec, la specifica di un modello di classificazione random forest usando il motore "ranger" e l’importanza delle variabili basata su "impurity".
  • Crea model adattando il tibble customers_train a spec usando still_customer come variabile di esito e tutte le altre colonne come variabili predittive.
  • Rappresenta l’importanza delle variabili usando la funzione vip() del pacchetto vip (che non è pre-caricato).

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Specify a random forest
spec <- ___ %>%
	set_mode("classification") %>%
    set_engine(___, importance = ___)

# Train the forest
model <- spec %>%
    fit(___,
        ___)

# Plot the variable importance
vip::___(model)
Modifica ed esegui il codice