Crear la canalización
¡Por fin estás listo para crear un Pipeline!
Pipeline es una clase del módulo pyspark.ml que combina todas las Estimators y Transformers que ya has creado. Esto te permite reutilizar una y otra vez el mismo proceso de modelado envolviéndolo en un simple objeto. Genial, ¿verdad?
Este ejercicio forma parte del curso
Fundamentos de PySpark
Instrucciones del ejercicio
Importa
Pipelinedesdepyspark.ml.Llama al constructor
Pipeline()con el argumento clavestagespara crear unPipelinellamadoflights_pipe.stagesdebe ser una lista que contenga todas las etapas por las que quieres que pasen tus datos en la canalización. Aquí esto es:[dest_indexer, dest_encoder, carr_indexer, carr_encoder, vec_assembler]
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Import Pipeline
from ____ import ____
# Make the pipeline
flights_pipe = Pipeline(stages=____)