Créer le pipeline
Vous êtes enfin prêt à créer un site Pipeline!
Pipeline est une classe du module pyspark.ml qui combine tous les Estimators et Transformers que vous avez déjà créés. Cela vous permet de réutiliser le même processus de modélisation à plusieurs reprises en l'enveloppant dans un simple objet. Sympathique, non ?
Cet exercice fait partie du cours
Introduction à PySpark
Instructions
Importez
Pipelineà partir depyspark.ml.Appelez le constructeur
Pipeline()avec l'argument mot-cléstagespour créer unPipelineappeléflights_pipe.stagesdoit être une liste contenant toutes les étapes par lesquelles vous voulez que vos données passent dans le pipeline. Ici, c'est juste :[dest_indexer, dest_encoder, carr_indexer, carr_encoder, vec_assembler]
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import Pipeline
from ____ import ____
# Make the pipeline
flights_pipe = Pipeline(stages=____)