Aan de slagBegin gratis

Volledig random forest-model maken

Random forest-modellen voeren van nature featureselectie uit, doordat ze veel subtrees bouwen op basis van willekeurige subsets van de features. Eén manier om feature-importances te begrijpen, is een model bouwen en daarna de importances eruit halen. In deze oefening gebruik je daarom de Healthcare Job Attrition-gegevens om een rand_forest()-classificatiemodel te trainen waaruit je feature-importances kunt extraheren. Zorg ervoor dat je het model aanmaakt met importance = "impurity" zodat feature-importances beschikbaar zijn. De sets train en test zijn beschikbaar.

De pakketten tidyverse, tidymodels en vip zijn al voor je geladen.

Deze oefening maakt deel uit van de cursus

Dimensionality Reduction in R

Bekijk cursus

Oefeninstructies

  • Definieer een random forest-classificatiemodel met 200 trees waarmee je feature-importances kunt extraheren.
  • Fit het random forest-model met alle voorspellers.
  • Voeg de voorspellingen samen met de testset.
  • Bereken de F1-metric.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Specify the random forest model
rf_spec <- ___(mode = "___", ___ = ___) %>% 
  set_engine("___", ___ = "___") 

# Fit the random forest model with all predictors
rf_fit <- ___ %>% 
  ___(___, data = ___)

# Create the test set prediction data frame
predict_df <- ___ %>% 
  bind_cols(predict = ___(___, ___))

# Calculate F1 performance
f_meas(predict_df, ___, .pred_class)
Code bewerken en uitvoeren