Créer le pipeline
Vous êtes enfin prêt à créer un site Pipeline
!
Pipeline
est une classe du module pyspark.ml
qui combine tous les Estimators
et Transformers
que vous avez déjà créés. Cela vous permet de réutiliser le même processus de modélisation à plusieurs reprises en l'enveloppant dans un simple objet. Sympathique, non ?
Cet exercice fait partie du cours
Introduction à PySpark
Instructions
Importez
Pipeline
à partir depyspark.ml
.Appelez le constructeur
Pipeline()
avec l'argument mot-cléstages
pour créer unPipeline
appeléflights_pipe
.stages
doit être une liste contenant toutes les étapes par lesquelles vous voulez que vos données passent dans le pipeline. Ici, c'est juste :[dest_indexer, dest_encoder, carr_indexer, carr_encoder, vec_assembler]
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import Pipeline
from ____ import ____
# Make the pipeline
flights_pipe = Pipeline(stages=____)