Aan de slagGa gratis aan de slag

Volledig random forest-model maken

Random forest-modellen voeren van nature featureselectie uit, doordat ze veel subtrees bouwen op basis van willekeurige subsets van de features. Eén manier om feature-importances te begrijpen, is een model bouwen en daarna de importances eruit halen. In deze oefening gebruik je daarom de Healthcare Job Attrition-gegevens om een rand_forest()-classificatiemodel te trainen waaruit je feature-importances kunt extraheren. Zorg ervoor dat je het model aanmaakt met importance = "impurity" zodat feature-importances beschikbaar zijn. De sets train en test zijn beschikbaar.

De pakketten tidyverse, tidymodels en vip zijn al voor je geladen.

Deze oefening maakt deel uit van de cursus

Dimensionality Reduction in R

Cursus bekijken

Oefeninstructies

  • Definieer een random forest-classificatiemodel met 200 trees waarmee je feature-importances kunt extraheren.
  • Fit het random forest-model met alle voorspellers.
  • Voeg de voorspellingen samen met de testset.
  • Bereken de F1-metric.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Specify the random forest model
rf_spec <- ___(mode = "___", ___ = ___) %>% 
  set_engine("___", ___ = "___") 

# Fit the random forest model with all predictors
rf_fit <- ___ %>% 
  ___(___, data = ___)

# Create the test set prediction data frame
predict_df <- ___ %>% 
  bind_cols(predict = ___(___, ___))

# Calculate F1 performance
f_meas(predict_df, ___, .pred_class)
Code bewerken en uitvoeren