Aan de slagGa gratis aan de slag

Belang van variabelen

Je weet al dat bagged trees een ensemblemodel zijn dat het variantieprobleem van beslisbomen oplost. Nu heb je geleerd dat het random forest-algoritme dit verder verbetert door in elke boom slechts een willekeurige subset van de features te gebruiken. Dit decorreleert het ensemble nog meer en verbetert de voorspellende prestaties.

In deze oefening bouw je zelf een random forest en visualiseer je het belang van de voorspellers met het vip-pakket. De trainingsdata, customers_train, is al voor je geladen in je werkruimte.

Deze oefening maakt deel uit van de cursus

Machine Learning met boomgebaseerde modellen in R

Cursus bekijken

Oefeninstructies

  • Maak spec, de specificatie van een random forest-classificatiemodel met de "ranger"-engine en variabele-importantie op basis van "impurity".
  • Maak model door de tibble customers_train te fitten aan spec, met still_customer als uitkomst en alle andere kolommen als voorspellers.
  • Plot de variabele-importantie met de functie vip() uit het vip-pakket (dit is niet vooraf geladen).

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Specify a random forest
spec <- ___ %>%
	set_mode("classification") %>%
    set_engine(___, importance = ___)

# Train the forest
model <- spec %>%
    fit(___,
        ___)

# Plot the variable importance
vip::___(model)
Code bewerken en uitvoeren