Gradient Boosted Trees: Vorhersage
Wenn du dein Modell ausgeführt hast, ist der nächste Schritt, damit Vorhersagen zu treffen. Im Gegensatz zu base R, das die Funktion predict() für Vorhersagen verwendet, nutzt sparklyr die Funktion ml_predict(). ml_predict() nimmt zwei Argumente: ein Modell und Testdaten.
ml_predict(a_model, testing_data)
Ein häufiger Anwendungsfall ist der Vergleich der vorhergesagten Antworten mit den tatsächlichen Antworten, die du in R visualisieren kannst. Das Muster zur Aufbereitung dieser Daten sieht so aus. Beachte, dass das Hinzufügen einer Vorhersagespalte derzeit lokal erfolgen muss, daher musst du die Ergebnisse zuerst sammeln.
predicted_vs_actual <- testing_data %>%
select(actual) %>%
collect() %>%
mutate(predicted)
Diese Übung ist Teil des Kurses
Einführung in Spark mit sparklyr in R
Anleitung zur Übung
Eine Spark-Verbindung wurde bereits als spark_conn erstellt. Die mit den Trainings- bzw. Testdatensätzen in Spark verknüpften Tibbles sind als track_data_to_model_tbl bzw. track_data_to_predict_tbl vordefiniert. Das Gradient-Boosted-Trees-Modell ist als gradient_boosted_trees_model vordefiniert.
- Definiere eine Variable
predicted, die die Vorhersagen des Modells für unsere Testdaten enthält.- Rufe
ml_predict()mit dem Modell und den Testdaten als Argumenten auf. Diese Funktion erzeugt Vorhersagen für den Testdatensatz und fügt sie als neue Spalte mit dem Namenpredictionhinzu. - Mit
pull()können wir diese Spalte extrahieren undpredictedzuweisen.
- Rufe
- Definiere die Variable
responses, um die Daten für den Vergleich der vorhergesagten mit den tatsächlichen Antworten aufzubereiten:- Wähle die Zielspalte
yearaus. - Sammle die Ergebnisse.
- Verwende
mutate(), um die inpredictedenthaltenen Vorhersagen hinzuzufügen.
- Wähle die Zielspalte
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Training, testing sets & model are pre-defined
track_data_to_model_tbl
track_data_to_predict_tbl
gradient_boosted_trees_model
# Predict the responses for the testing data
predicted <- ___(
___,
___) %>% pull(prediction)
# Prepare the data for comparing predicted responses with actual responses
responses <- track_data_to_predict_tbl %>%
# Select the response column
___ %>%
# Collect the results
___ %>%
# Add in the predictions
mutate(___)