Random Forest: Modellierung

Wie bei Gradient Boosted Trees sind Random Forests eine weitere Form von Ensemble-Modell. Das heißt, sie nutzen viele einfachere Modelle (wieder Entscheidungsbäume) und kombinieren sie zu einem einzigen, besseren Modell. Anstatt dasselbe Modell iterativ laufen zu lassen, führen Random Forests viele separate Modelle parallel aus – jeweils auf einer zufällig gewählten Teilmenge der Daten und mit einer zufällig gewählten Teilmenge von Features. Der endgültige Entscheidungsbaum sagt dann voraus, indem er die Ergebnisse der einzelnen Modelle aggregiert.

Die Random-Forest-Funktion von sparklyr heißt ml_random_forest(). Ihre Verwendung ist exakt dieselbe wie bei ml_gradient_boosted_trees() (siehe die erste Übung dieses Kapitels für eine Auffrischung der Syntax).

Diese Übung ist Teil des Kurses

<Kurs>Einführung in Spark mit sparklyr in R</Kurs>

Kurs ansehen

Übungsanweisungen

Eine Spark-Verbindung wurde für dich als spark_conn erstellt. Ein Tibble, das mit den kombinierten und gefilterten Track-Metadaten/Timber-Daten in Spark verknüpft ist, wurde als track_data_to_model_tbl vordefiniert.

Wiederhole deine Jahresvorhersage-Analyse, diesmal mit einem Random-Forest-Modell.
- Hole die timbre-Spalten aus track_data_to_model_tbl und weise das Ergebnis feature_colnames zu.
- Erstelle die Formel für das Modell mit reformulate().
- Führe das Random-Forest-Modell aus und weise das Ergebnis random_forest_model zu.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# track_data_to_model_tbl has been pre-defined
track_data_to_model_tbl

# Get the timbre columns
feature_colnames <- ___

# Create the formula for the model
year_formula <- ___

# Run the random forest model
random_forest_model <- ___

Code bearbeiten und ausführen