Riduci i dati usando le importanze delle feature

Ora che hai creato un modello random forest completo, esplorerai l’importanza delle feature.

Anche se i modelli random forest effettuano naturalmente — ma in modo implicito — la selezione delle feature, spesso è utile costruire un modello ridotto. Un modello ridotto si allena più velocemente, calcola le previsioni più rapidamente ed è più facile da capire e gestire. Naturalmente, c’è sempre un compromesso tra semplicità del modello e prestazioni del modello.

In questo esercizio, ridurrai l’insieme di dati. Nel prossimo esercizio, adatterai un modello ridotto e confronterai le sue prestazioni con quelle del modello completo. rf_fit, train e test sono già forniti.

I pacchetti tidyverse, tidymodels e vip sono stati caricati per te.

Questo esercizio fa parte del corso

Riduzione della dimensionalità in R

Visualizza il corso

Istruzioni dell'esercizio

Usa vi() con il parametro rank per estrarre le dieci feature più importanti.
Aggiungi la variabile target all’elenco delle feature principali.
Applica la maschera delle feature principali per ridurre gli insiemi di dati.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Extract the top ten features
top_features <- ___ %>% 
  ___(___ = ___) %>% 
  filter(___) %>% 
  pull(Variable)

# Add the target variable to the feature list
top_features <- c(___, "___")

# Reduce and print the data sets
train_reduced <- train[___]
test_reduced <- ___[___]
train_reduced %>% head(5)
test_reduced %>% head(5)

Modifica ed esegui il codice