Die Pipeline erstellen
Du bist endlich bereit, eine Pipeline
zu erstellen!
Pipeline
ist eine Klasse im Modul pyspark.ml
, die alle Estimators
und Transformers
zusammenfasst, die du bereits erstellt hast. Auf diese Weise kannst du denselben Modellerstellungsprozess immer wieder verwenden, indem du ihn in ein einfaches Objekt verpackst. Toll, oder?
Diese Übung ist Teil des Kurses
Einführung in PySpark
Anleitung zur Übung
Importiere
Pipeline
vonpyspark.ml
.Rufe den
Pipeline()
-Konstruktor mit dem Schlüsselwortargumentstages
auf, um einePipeline
namensflights_pipe
zu erstellen.stages
muss eine Liste mit allen Phasen sein, die deine Daten in der Pipeline durchlaufen sollen. Hier ist es einfach:[dest_indexer, dest_encoder, carr_indexer, carr_encoder, vec_assembler]
Interaktive Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Import Pipeline
from ____ import ____
# Make the pipeline
flights_pipe = Pipeline(stages=____)