Flugdauer-Modell: Pipeline Modell
Jetzt kannst du diese Phasen in einer Pipeline zusammenfassen.
Du baust die Pipeline auf und trainierst sie dann mit den Trainingsdaten. Dabei werden die einzelnen Schritte der Pipeline nacheinander auf die Trainingsdaten angewendet. Keine der Stufen wird mit den Testdaten in Berührung kommen: Es gibt keine undichten Stellen!
Sobald die gesamte Pipeline trainiert wurde, wird sie verwendet, um Vorhersagen für die Testdaten zu treffen.
Die Daten sind als flights verfügbar, die nach dem Zufallsprinzip in flights_train und flights_test aufgeteilt wurden.
Diese Übung ist Teil des Kurses
Maschinelles Lernen mit PySpark
Anleitung zur Übung
- Importiere die Klasse für die Erstellung einer Pipeline.
- Erstelle ein Pipeline-Objekt und gib die Phasen
indexer,onehot,assemblerundregressionin dieser Reihenfolge an. - Trainiere die Pipeline mit den Trainingsdaten.
- Mache Vorhersagen anhand der Testdaten.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Import class for creating a pipeline
from pyspark.____ import ____
# Construct a pipeline
pipeline = ____(____=[____])
# Train the pipeline on the training data
pipeline = pipeline.____(____)
# Make predictions on the testing data
predictions = ____.____(____)