Réduire les données à l’aide des importances de caractéristiques

Maintenant que vous avez créé un modèle de forêt aléatoire complet, vous allez explorer l’importance des caractéristiques.

Même si les modèles de forêts aléatoires effectuent naturellement — mais implicitement — une sélection de caractéristiques, il est souvent avantageux de construire un modèle réduit. Un modèle réduit s’entraîne plus vite, calcule les prédictions plus rapidement et est plus simple à comprendre et à maintenir. Bien sûr, il s’agit toujours d’un compromis entre simplicité et performance du modèle.

Dans cet exercice, vous allez réduire l’ensemble de données. Dans le prochain, vous ajusterez un modèle réduit et comparerez ses performances au modèle complet. rf_fit, train et test sont fournis.

Les packages tidyverse, tidymodels et vip ont été chargés pour vous.

Cet exercice fait partie du cours

Réduction de dimension en R

Afficher le cours

Instructions

Utilisez vi() avec le paramètre rank pour extraire les dix caractéristiques les plus importantes.
Rajoutez la variable cible à la liste des caractéristiques principales.
Appliquez le masque des caractéristiques principales pour réduire les ensembles de données.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Extract the top ten features
top_features <- ___ %>% 
  ___(___ = ___) %>% 
  filter(___) %>% 
  pull(Variable)

# Add the target variable to the feature list
top_features <- c(___, "___")

# Reduce and print the data sets
train_reduced <- train[___]
test_reduced <- ___[___]
train_reduced %>% head(5)
test_reduced %>% head(5)

Modifier et exécuter le code