Random Forest: Modellierung
Wie bei Gradient Boosted Trees sind Random Forests eine weitere Form von Ensemble-Modell. Das heißt, sie nutzen viele einfachere Modelle (wieder Entscheidungsbäume) und kombinieren sie zu einem einzigen, besseren Modell. Anstatt dasselbe Modell iterativ laufen zu lassen, führen Random Forests viele separate Modelle parallel aus – jeweils auf einer zufällig gewählten Teilmenge der Daten und mit einer zufällig gewählten Teilmenge von Features. Der endgültige Entscheidungsbaum sagt dann voraus, indem er die Ergebnisse der einzelnen Modelle aggregiert.
Die Random-Forest-Funktion von sparklyr heißt ml_random_forest(). Ihre Verwendung ist exakt dieselbe wie bei ml_gradient_boosted_trees() (siehe die erste Übung dieses Kapitels für eine Auffrischung der Syntax).
Diese Übung ist Teil des Kurses
Einführung in Spark mit sparklyr in R
Anleitung zur Übung
Eine Spark-Verbindung wurde für dich als spark_conn erstellt. Ein Tibble, das mit den kombinierten und gefilterten Track-Metadaten/Timber-Daten in Spark verknüpft ist, wurde als track_data_to_model_tbl vordefiniert.
- Wiederhole deine Jahresvorhersage-Analyse, diesmal mit einem Random-Forest-Modell.
- Hole die
timbre-Spalten austrack_data_to_model_tblund weise das Ergebnisfeature_colnameszu. - Erstelle die Formel für das Modell mit
reformulate(). - Führe das Random-Forest-Modell aus und weise das Ergebnis
random_forest_modelzu.
- Hole die
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# track_data_to_model_tbl has been pre-defined
track_data_to_model_tbl
# Get the timbre columns
feature_colnames <- ___
# Create the formula for the model
year_formula <- ___
# Run the random forest model
random_forest_model <- ___