Riduci i dati usando le importanze delle feature
Ora che hai creato un modello random forest completo, esplorerai l’importanza delle feature.
Anche se i modelli random forest effettuano naturalmente — ma in modo implicito — la selezione delle feature, spesso è utile costruire un modello ridotto. Un modello ridotto si allena più velocemente, calcola le previsioni più rapidamente ed è più facile da capire e gestire. Naturalmente, c’è sempre un compromesso tra semplicità del modello e prestazioni del modello.
In questo esercizio, ridurrai l’insieme di dati. Nel prossimo esercizio, adatterai un modello ridotto e confronterai le sue prestazioni con quelle del modello completo. rf_fit, train e test sono già forniti.
I pacchetti tidyverse, tidymodels e vip sono stati caricati per te.
Questo esercizio fa parte del corso
Riduzione della dimensionalità in R
Istruzioni dell'esercizio
- Usa
vi()con il parametrorankper estrarre le dieci feature più importanti. - Aggiungi la variabile target all’elenco delle feature principali.
- Applica la maschera delle feature principali per ridurre gli insiemi di dati.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Extract the top ten features
top_features <- ___ %>%
___(___ = ___) %>%
filter(___) %>%
pull(Variable)
# Add the target variable to the feature list
top_features <- c(___, "___")
# Reduce and print the data sets
train_reduced <- train[___]
test_reduced <- ___[___]
train_reduced %>% head(5)
test_reduced %>% head(5)