Belang van variabelen
Je weet al dat bagged trees een ensemblemodel zijn dat het variantieprobleem van beslisbomen oplost. Nu heb je geleerd dat het random forest-algoritme dit verder verbetert door in elke boom slechts een willekeurige subset van de features te gebruiken. Dit decorreleert het ensemble nog meer en verbetert de voorspellende prestaties.
In deze oefening bouw je zelf een random forest en visualiseer je het belang van de voorspellers met het vip-pakket. De trainingsdata, customers_train, is al voor je geladen in je werkruimte.
Deze oefening maakt deel uit van de cursus
Machine Learning met boomgebaseerde modellen in R
Oefeninstructies
- Maak
spec, de specificatie van een random forest-classificatiemodel met de"ranger"-engine en variabele-importantie op basis van"impurity". - Maak
modeldoor de tibblecustomers_trainte fitten aanspec, metstill_customerals uitkomst en alle andere kolommen als voorspellers. - Plot de variabele-importantie met de functie
vip()uit hetvip-pakket (dit is niet vooraf geladen).
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Specify a random forest
spec <- ___ %>%
set_mode("classification") %>%
set_engine(___, importance = ___)
# Train the forest
model <- spec %>%
fit(___,
___)
# Plot the variable importance
vip::___(model)