Bouw een random forest-model

Hier ga je met dezelfde cross-validatiegegevens random forests bouwen (met train) en evalueren (met validate) voor elke partitie. Omdat je dezelfde cross-validatiepartities gebruikt als voor je regressiemodellen, kun je de prestaties van beide modellen direct vergelijken.

Opmerking: We beperken onze random forests tot 100 trees zodat het fitten binnen een redelijke tijd klaar is. Het standaard aantal trees voor ranger() is 500.

Deze oefening maakt deel uit van de cursus

Machine Learning in de tidyverse

Cursus bekijken

Oefeninstructies

Gebruik ranger() om voor elke cross-validatiepartitie een random forest te bouwen die life_expectancy voorspelt met alle features in train.
Voeg een nieuwe kolom validate_predicted toe die de life_expectancy voorspelt voor de observaties in validate met de zojuist gemaakte random forest-modellen.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

library(ranger)

# Build a random forest model for each fold
cv_models_rf <- cv_data %>% 
  mutate(model = map(___, ~ranger(formula = ___, data = ___,
                                    num.trees = 100, seed = 42)))

# Generate predictions using the random forest model
cv_prep_rf <- cv_models_rf %>% 
  mutate(validate_predicted = map2(.x = ___, .y = ___, ~predict(.x, .y)$predictions))

Code bewerken en uitvoeren