Flugdauer-Modell: Pipeline-Modell
Jetzt kannst du diese Phasen in einer Pipeline zusammenfassen.
Du baust die Pipeline auf und trainierst sie dann mit den Trainingsdaten. Dadurch werden alle einzelnen Phasen der Pipeline nacheinander auf die Trainingsdaten angewendet. Keine der Phasen wird den Testdaten ausgesetzt sein: Es gibt keine Datenlecks!
Sobald die ganze Pipeline trainiert ist, wird sie verwendet, um Vorhersagen zu den Testdaten zu treffen.
Die Daten sind als „ flights
” verfügbar und wurden zufällig in „ flights_train
” und „ flights_test
” aufgeteilt.
Diese Übung ist Teil des Kurses
Maschinelles Lernen mit PySpark
Anleitung zur Übung
- Importiere die Klasse zum Erstellen einer Pipeline.
- Erstell ein Pipeline-Objekt und gib die Stufen „
indexer
“, „onehot
“, „assembler
“ und „regression
“ in dieser Reihenfolge an. - Trainiere die Pipeline mit den Trainingsdaten.
- Mach mal ein paar Vorhersagen zu den Testdaten.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Import class for creating a pipeline
from pyspark.____ import ____
# Construct a pipeline
pipeline = ____(____=[____])
# Train the pipeline on the training data
pipeline = pipeline.____(____)
# Make predictions on the testing data
predictions = ____.____(____)