IniziaInizia gratis

Riduci i dati usando le importanze delle feature

Ora che hai creato un modello random forest completo, esplorerai l’importanza delle feature.

Anche se i modelli random forest effettuano naturalmente — ma in modo implicito — la selezione delle feature, spesso è utile costruire un modello ridotto. Un modello ridotto si allena più velocemente, calcola le previsioni più rapidamente ed è più facile da capire e gestire. Naturalmente, c’è sempre un compromesso tra semplicità del modello e prestazioni del modello.

In questo esercizio, ridurrai l’insieme di dati. Nel prossimo esercizio, adatterai un modello ridotto e confronterai le sue prestazioni con quelle del modello completo. rf_fit, train e test sono già forniti.

I pacchetti tidyverse, tidymodels e vip sono stati caricati per te.

Questo esercizio fa parte del corso

Riduzione della dimensionalità in R

Visualizza il corso

Istruzioni dell'esercizio

  • Usa vi() con il parametro rank per estrarre le dieci feature più importanti.
  • Aggiungi la variabile target all’elenco delle feature principali.
  • Applica la maschera delle feature principali per ridurre gli insiemi di dati.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Extract the top ten features
top_features <- ___ %>% 
  ___(___ = ___) %>% 
  filter(___) %>% 
  pull(Variable)

# Add the target variable to the feature list
top_features <- c(___, "___")

# Reduce and print the data sets
train_reduced <- train[___]
test_reduced <- ___[___]
train_reduced %>% head(5)
test_reduced %>% head(5)
Modifica ed esegui il codice