Ein Random-Forest-Modell erstellen

Hier verwendest du dieselben Cross-Validation-Daten, um für jede Partition Random Forests zu erstellen (mit train) und zu evaluieren (mit validate). Da du die gleichen Cross-Validation-Partitionen wie für deine Regressionsmodelle nutzt, kannst du die Leistung der beiden Modelltypen direkt vergleichen.

Hinweis: Wir begrenzen unsere Random Forests auf 100 Bäume, damit das Fitten in angemessener Zeit abgeschlossen ist. Die Standardanzahl an Bäumen für ranger() beträgt 500.

Diese Übung ist Teil des Kurses

Machine Learning im Tidyverse

Kurs anzeigen

Anleitung zur Übung

Verwende ranger(), um für jede Cross-Validation-Partition einen Random Forest zu bauen, der life_expectancy mit allen Features in train vorhersagt.
Füge eine neue Spalte validate_predicted hinzu, die mit den soeben erstellten Random-Forest-Modellen die life_expectancy für die Beobachtungen in validate vorhersagt.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

library(ranger)

# Build a random forest model for each fold
cv_models_rf <- cv_data %>% 
  mutate(model = map(___, ~ranger(formula = ___, data = ___,
                                    num.trees = 100, seed = 42)))

# Generate predictions using the random forest model
cv_prep_rf <- cv_models_rf %>% 
  mutate(validate_predicted = map2(.x = ___, .y = ___, ~predict(.x, .y)$predictions))

Code bearbeiten und ausführen