Gegevens reduceren met feature-importances

Nu je een volledig random forest-model hebt gemaakt, ga je de belangrijkheid van features verkennen.

Hoewel random forest-modellen van nature — maar impliciet — featureselectie uitvoeren, is het vaak voordelig om een gereduceerd model te bouwen. Een gereduceerd model traint sneller, maakt sneller voorspellingen en is makkelijker te begrijpen en te beheren. Het blijft natuurlijk altijd een afweging tussen modelsimpliciteit en modelprestaties.

In deze oefening ga je de gegevensset verkleinen. In de volgende oefening pas je een gereduceerd model toe en vergelijk je de prestaties met het volledige model. rf_fit, train en test zijn voor je beschikbaar.

De pakketten tidyverse, tidymodels en vip zijn voor je geladen.

Deze oefening maakt deel uit van de cursus

Dimensionality Reduction in R

Cursus bekijken

Oefeninstructies

Gebruik vi() met de parameter rank om de tien belangrijkste features te extraheren.
Voeg de doelvariabele weer toe aan de lijst met topfeatures.
Pas het topfeature-masker toe om de gegevenssets te verkleinen.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Extract the top ten features
top_features <- ___ %>% 
  ___(___ = ___) %>% 
  filter(___) %>% 
  pull(Variable)

# Add the target variable to the feature list
top_features <- c(___, "___")

# Reduce and print the data sets
train_reduced <- train[___]
test_reduced <- ___[___]
train_reduced %>% head(5)
test_reduced %>% head(5)

Code bewerken en uitvoeren