Crear la canalización
¡Por fin estás listo para crear un Pipeline
!
Pipeline
es una clase del módulo pyspark.ml
que combina todas las Estimators
y Transformers
que ya has creado. Esto te permite reutilizar una y otra vez el mismo proceso de modelado envolviéndolo en un simple objeto. Genial, ¿verdad?
Este ejercicio forma parte del curso
Introducción a PySpark
Instrucciones de ejercicio
Importa
Pipeline
desdepyspark.ml
.Llama al constructor
Pipeline()
con el argumento clavestages
para crear unPipeline
llamadoflights_pipe
.stages
debe ser una lista que contenga todas las etapas por las que quieres que pasen tus datos en la canalización. Aquí esto es:[dest_indexer, dest_encoder, carr_indexer, carr_encoder, vec_assembler]
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
# Import Pipeline
from ____ import ____
# Make the pipeline
flights_pipe = Pipeline(stages=____)