Erste SchritteKostenlos loslegen

Flugdauer-Modell: Pipeline Modell

Jetzt kannst du diese Phasen in einer Pipeline zusammenfassen.

Du baust die Pipeline auf und trainierst sie dann mit den Trainingsdaten. Dabei werden die einzelnen Schritte der Pipeline nacheinander auf die Trainingsdaten angewendet. Keine der Stufen wird mit den Testdaten in Berührung kommen: Es gibt keine undichten Stellen!

Sobald die gesamte Pipeline trainiert wurde, wird sie verwendet, um Vorhersagen für die Testdaten zu treffen.

Die Daten sind als flights verfügbar, die nach dem Zufallsprinzip in flights_train und flights_test aufgeteilt wurden.

Diese Übung ist Teil des Kurses

Maschinelles Lernen mit PySpark

Kurs anzeigen

Anleitung zur Übung

  • Importiere die Klasse für die Erstellung einer Pipeline.
  • Erstelle ein Pipeline-Objekt und gib die Phasen indexer, onehot, assembler und regression in dieser Reihenfolge an.
  • Trainiere die Pipeline mit den Trainingsdaten.
  • Mache Vorhersagen anhand der Testdaten.

Interaktive Übung zum Anfassen

Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.

# Import class for creating a pipeline
from pyspark.____ import ____

# Construct a pipeline
pipeline = ____(____=[____])

# Train the pipeline on the training data
pipeline = pipeline.____(____)

# Make predictions on the testing data
predictions = ____.____(____)
Bearbeiten und Ausführen von Code