ComenzarEmpieza gratis

Crear la canalización

¡Por fin estás listo para crear un Pipeline!

Pipeline es una clase del módulo pyspark.ml que combina todas las Estimators y Transformers que ya has creado. Esto te permite reutilizar una y otra vez el mismo proceso de modelado envolviéndolo en un simple objeto. Genial, ¿verdad?

Este ejercicio forma parte del curso

Introducción a PySpark

Ver curso

Instrucciones de ejercicio

  • Importa Pipeline desde pyspark.ml.

  • Llama al constructor Pipeline() con el argumento clave stages para crear un Pipeline llamado flights_pipe.

    • stages debe ser una lista que contenga todas las etapas por las que quieres que pasen tus datos en la canalización. Aquí esto es: [dest_indexer, dest_encoder, carr_indexer, carr_encoder, vec_assembler]

Ejercicio interactivo práctico

Pruebe este ejercicio completando este código de muestra.

# Import Pipeline
from ____ import ____

# Make the pipeline
flights_pipe = Pipeline(stages=____)
Editar y ejecutar código