LoslegenKostenlos loslegen

Gradient Boosted Trees: Vorhersage

Wenn du dein Modell ausgeführt hast, ist der nächste Schritt, damit Vorhersagen zu treffen. Im Gegensatz zu base R, das die Funktion predict() für Vorhersagen verwendet, nutzt sparklyr die Funktion ml_predict(). ml_predict() nimmt zwei Argumente: ein Modell und Testdaten.

ml_predict(a_model, testing_data)

Ein häufiger Anwendungsfall ist der Vergleich der vorhergesagten Antworten mit den tatsächlichen Antworten, die du in R visualisieren kannst. Das Muster zur Aufbereitung dieser Daten sieht so aus. Beachte, dass das Hinzufügen einer Vorhersagespalte derzeit lokal erfolgen muss, daher musst du die Ergebnisse zuerst sammeln.

predicted_vs_actual <- testing_data %>%
  select(actual) %>%
  collect() %>%
  mutate(predicted)

Diese Übung ist Teil des Kurses

Einführung in Spark mit sparklyr in R

Kurs anzeigen

Anleitung zur Übung

Eine Spark-Verbindung wurde bereits als spark_conn erstellt. Die mit den Trainings- bzw. Testdatensätzen in Spark verknüpften Tibbles sind als track_data_to_model_tbl bzw. track_data_to_predict_tbl vordefiniert. Das Gradient-Boosted-Trees-Modell ist als gradient_boosted_trees_model vordefiniert.

  • Definiere eine Variable predicted, die die Vorhersagen des Modells für unsere Testdaten enthält.
    • Rufe ml_predict() mit dem Modell und den Testdaten als Argumenten auf. Diese Funktion erzeugt Vorhersagen für den Testdatensatz und fügt sie als neue Spalte mit dem Namen prediction hinzu.
    • Mit pull() können wir diese Spalte extrahieren und predicted zuweisen.
  • Definiere die Variable responses, um die Daten für den Vergleich der vorhergesagten mit den tatsächlichen Antworten aufzubereiten:
    • Wähle die Zielspalte year aus.
    • Sammle die Ergebnisse.
    • Verwende mutate(), um die in predicted enthaltenen Vorhersagen hinzuzufügen.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Training, testing sets & model are pre-defined
track_data_to_model_tbl
track_data_to_predict_tbl
gradient_boosted_trees_model

# Predict the responses for the testing data
predicted <- ___(
      ___,
      ___) %>% pull(prediction)

# Prepare the data for comparing predicted responses with actual responses
responses <- track_data_to_predict_tbl %>%
  # Select the response column
  ___ %>%
  # Collect the results
  ___ %>%
  # Add in the predictions
  mutate(___)
Code bearbeiten und ausführen