Die Pipeline erstellen
Du bist endlich bereit, eine Pipeline zu erstellen!
Pipeline ist eine Klasse im Modul pyspark.ml, die alle Estimators und Transformers zusammenfasst, die du bereits erstellt hast. Auf diese Weise kannst du denselben Modellerstellungsprozess immer wieder verwenden, indem du ihn in ein einfaches Objekt verpackst. Toll, oder?
Diese Übung ist Teil des Kurses
Einführung in PySpark
Anleitung zur Übung
Importiere
Pipelinevonpyspark.ml.Rufe den
Pipeline()-Konstruktor mit dem Schlüsselwortargumentstagesauf, um einePipelinenamensflights_pipezu erstellen.stagesmuss eine Liste mit allen Phasen sein, die deine Daten in der Pipeline durchlaufen sollen. Hier ist es einfach:[dest_indexer, dest_encoder, carr_indexer, carr_encoder, vec_assembler]
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Import Pipeline
from ____ import ____
# Make the pipeline
flights_pipe = Pipeline(stages=____)