Modelo de duración del vuelo: Modelo de tubería

Ahora estás preparado para juntar esas etapas en una tubería.

Construirás la canalización y luego la entrenarás con los datos de entrenamiento. Esto aplicará cada una de las etapas individuales de la cadena a los datos de entrenamiento sucesivamente. Ninguna de las etapas estará expuesta en absoluto a los datos de la prueba: ¡no habrá fugas!

Una vez entrenada toda la tubería, se utilizará para hacer predicciones sobre los datos de prueba.

Los datos están disponibles como flights, que se ha dividido aleatoriamente en flights_train y flights_test.

Este ejercicio forma parte del curso

Machine learning con PySpark

Ver curso

Instrucciones del ejercicio

Importa la clase para crear una tubería.
Crea un objeto pipeline y especifica las etapas indexer, onehot, assembler y regression, en este orden.
Entrena la tubería con los datos de entrenamiento.
Haz predicciones sobre los datos de las pruebas.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Import class for creating a pipeline
from pyspark.____ import ____

# Construct a pipeline
pipeline = ____(____=[____])

# Train the pipeline on the training data
pipeline = pipeline.____(____)

# Make predictions on the testing data
predictions = ____.____(____)

Editar y ejecutar código