Flugdauer-Modell: Pipeline Modell

Jetzt kannst du diese Phasen in einer Pipeline zusammenfassen.

Du baust die Pipeline auf und trainierst sie dann mit den Trainingsdaten. Dabei werden die einzelnen Schritte der Pipeline nacheinander auf die Trainingsdaten angewendet. Keine der Stufen wird mit den Testdaten in Berührung kommen: Es gibt keine undichten Stellen!

Sobald die gesamte Pipeline trainiert wurde, wird sie verwendet, um Vorhersagen für die Testdaten zu treffen.

Die Daten sind als flights verfügbar, die nach dem Zufallsprinzip in flights_train und flights_test aufgeteilt wurden.

Diese Übung ist Teil des Kurses

<Kurs>Maschinelles Lernen mit PySpark</Kurs>

Kurs ansehen

Übungsanweisungen

Importiere die Klasse für die Erstellung einer Pipeline.
Erstelle ein Pipeline-Objekt und gib die Phasen indexer, onehot, assembler und regression in dieser Reihenfolge an.
Trainiere die Pipeline mit den Trainingsdaten.
Mache Vorhersagen anhand der Testdaten.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Import class for creating a pipeline
from pyspark.____ import ____

# Construct a pipeline
pipeline = ____(____=[____])

# Train the pipeline on the training data
pipeline = pipeline.____(____)

# Make predictions on the testing data
predictions = ____.____(____)

Code bearbeiten und ausführen