Random Forest: Vorhersage
Jetzt sollst du mit deinem Random-Forest-Modell Vorhersagen erstellen. Die Syntax ist dieselbe wie beim Modell mit Gradient Boosted Trees.
Diese Übung ist Teil des Kurses
Einführung in Spark mit sparklyr in R
Anleitung zur Übung
Eine Spark-Verbindung wurde für dich als spark_conn erstellt. Tibbles, die mit den in Spark gespeicherten Trainings- bzw. Testdatensätzen verknüpft sind, wurden als track_data_to_model_tbl bzw. track_data_to_predict_tbl vordefiniert. Das Random-Forest-Modell wurde als random_forest_model vordefiniert.
- Definiere eine Variable
predicted, die die Vorhersagen des Modells für unsere Testdaten enthält.- Rufe
ml_predict()mit dem Modell und den Testdaten als Argumenten auf. Diese Funktion erzeugt Vorhersagen für den Testdatensatz und fügt sie als neue Spalte mit dem Namenpredictionhinzu.
- Rufe
- Definiere die Variable
responses, um die Daten darauf vorzubereiten, vorhergesagte mit tatsächlichen Antworten zu vergleichen:- Wähle die Zielspalte
yearaus. - Sammle die Ergebnisse.
- Verwende
mutate(), um die inpredictederzeugten Vorhersagen hinzuzufügen.
- Wähle die Zielspalte
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Training, testing sets & model are pre-defined
track_data_to_model_tbl
track_data_to_predict_tbl
random_forest_model
# Predict the responses for the testing data
predicted <- ml_predict(
___,
___) %>% pull(prediction)
# Create a response vs. actual dataset
responses <- ___