Gegevens reduceren met feature-importances
Nu je een volledig random forest-model hebt gemaakt, ga je de belangrijkheid van features verkennen.
Hoewel random forest-modellen van nature — maar impliciet — featureselectie uitvoeren, is het vaak voordelig om een gereduceerd model te bouwen. Een gereduceerd model traint sneller, maakt sneller voorspellingen en is makkelijker te begrijpen en te beheren. Het blijft natuurlijk altijd een afweging tussen modelsimpliciteit en modelprestaties.
In deze oefening ga je de gegevensset verkleinen. In de volgende oefening pas je een gereduceerd model toe en vergelijk je de prestaties met het volledige model. rf_fit, train en test zijn voor je beschikbaar.
De pakketten tidyverse, tidymodels en vip zijn voor je geladen.
Deze oefening maakt deel uit van de cursus
Dimensionality Reduction in R
Oefeninstructies
- Gebruik
vi()met de parameterrankom de tien belangrijkste features te extraheren. - Voeg de doelvariabele weer toe aan de lijst met topfeatures.
- Pas het topfeature-masker toe om de gegevenssets te verkleinen.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Extract the top ten features
top_features <- ___ %>%
___(___ = ___) %>%
filter(___) %>%
pull(Variable)
# Add the target variable to the feature list
top_features <- c(___, "___")
# Reduce and print the data sets
train_reduced <- train[___]
test_reduced <- ___[___]
train_reduced %>% head(5)
test_reduced %>% head(5)