Die Pipeline erstellen
Du bist endlich bereit, eine Pipeline zu erstellen!
Pipeline ist eine Klasse im Modul pyspark.ml, die alle Estimators und Transformers zusammenfasst, die du bereits erstellt hast. Auf diese Weise kannst du denselben Modellerstellungsprozess immer wieder verwenden, indem du ihn in ein einfaches Objekt verpackst. Toll, oder?
Diese Übung ist Teil des Kurses
<Kurs>Einführung in PySpark</Kurs>Übungsanweisungen
Importiere
Pipelinevonpyspark.ml.Rufe den
Pipeline()-Konstruktor mit dem Schlüsselwortargumentstagesauf, um einePipelinenamensflights_pipezu erstellen.stagesmuss eine Liste mit allen Phasen sein, die deine Daten in der Pipeline durchlaufen sollen. Hier ist es einfach:[dest_indexer, dest_encoder, carr_indexer, carr_encoder, vec_assembler]
Interaktive praktische Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Import Pipeline
from ____ import ____
# Make the pipeline
flights_pipe = Pipeline(stages=____)