Flugdauer-Modell: Pipeline Modell
Jetzt kannst du diese Phasen in einer Pipeline zusammenfassen.
Du baust die Pipeline auf und trainierst sie dann mit den Trainingsdaten. Dabei werden die einzelnen Schritte der Pipeline nacheinander auf die Trainingsdaten angewendet. Keine der Stufen wird mit den Testdaten in Berührung kommen: Es gibt keine undichten Stellen!
Sobald die gesamte Pipeline trainiert wurde, wird sie verwendet, um Vorhersagen für die Testdaten zu treffen.
Die Daten sind als flights
verfügbar, die nach dem Zufallsprinzip in flights_train
und flights_test
aufgeteilt wurden.
Diese Übung ist Teil des Kurses
Maschinelles Lernen mit PySpark
Anleitung zur Übung
- Importiere die Klasse für die Erstellung einer Pipeline.
- Erstelle ein Pipeline-Objekt und gib die Phasen
indexer
,onehot
,assembler
undregression
in dieser Reihenfolge an. - Trainiere die Pipeline mit den Trainingsdaten.
- Mache Vorhersagen anhand der Testdaten.
Interaktive Übung zum Anfassen
Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.
# Import class for creating a pipeline
from pyspark.____ import ____
# Construct a pipeline
pipeline = ____(____=[____])
# Train the pipeline on the training data
pipeline = pipeline.____(____)
# Make predictions on the testing data
predictions = ____.____(____)