CommencerCommencer gratuitement

Créer le pipeline

Vous êtes enfin prêt à créer un site Pipeline!

Pipeline est une classe du module pyspark.ml qui combine tous les Estimators et Transformers que vous avez déjà créés. Cela vous permet de réutiliser le même processus de modélisation à plusieurs reprises en l'enveloppant dans un simple objet. Sympathique, non ?

Cet exercice fait partie du cours

Introduction à PySpark

Afficher le cours

Instructions

  • Importez Pipeline à partir de pyspark.ml.

  • Appelez le constructeur Pipeline() avec l'argument mot-clé stages pour créer un Pipeline appelé flights_pipe.

    • stages doit être une liste contenant toutes les étapes par lesquelles vous voulez que vos données passent dans le pipeline. Ici, c'est juste : [dest_indexer, dest_encoder, carr_indexer, carr_encoder, vec_assembler]

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import Pipeline
from ____ import ____

# Make the pipeline
flights_pipe = Pipeline(stages=____)
Modifier et exécuter le code