Maak de pipeline
Je bent eindelijk klaar om een Pipeline te maken!
Pipeline is een klasse in de module pyspark.ml die alle Estimators en Transformers die je al hebt gemaakt combineert. Zo kun je steeds opnieuw exact hetzelfde modelleerproces gebruiken door het in één simpel object te verpakken. Handig, toch?
Deze oefening maakt deel uit van de cursus
Basis van PySpark
Oefeninstructies
- Importeer
Pipelineuitpyspark.ml. - Roep de constructor
Pipeline()aan met het keyword-argumentstagesom eenPipelinete maken met de naamflights_pipe.stagesmoet een lijst zijn met alle stappen waar je data in de pipeline doorheen moet. Hier is dat:[dest_indexer, dest_encoder, carr_indexer, carr_encoder, vec_assembler]
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Import Pipeline
from ____ import ____
# Make the pipeline
flights_pipe = Pipeline(stages=____)