ComenzarEmpieza gratis

Modelo de duración del vuelo: Modelo de canalización

Ahora ya estás listo para unir esas etapas en un proceso.

Construirás el pipeline y luego lo entrenarás con los datos de entrenamiento. Esto aplicará cada una de las etapas individuales del proceso a los datos de entrenamiento de forma sucesiva. Ninguna de las etapas estará expuesta a los datos de prueba en absoluto: ¡no habrá fugas!

Una vez que se haya entrenado todo el proceso, se utilizará para realizar predicciones sobre los datos de prueba.

Los datos están disponibles en flights, que se ha dividido aleatoriamente en flights_train y flights_test.

Este ejercicio forma parte del curso

Machine learning con PySpark

Ver curso

Instrucciones del ejercicio

  • Importa la clase para crear una canalización.
  • Crea un objeto de canalización y especifica las etapas « indexer », « onehot », « assembler » y « regression », en este orden.
  • Entrena el pipeline con los datos de entrenamiento.
  • Realiza predicciones sobre los datos de las pruebas.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Import class for creating a pipeline
from pyspark.____ import ____

# Construct a pipeline
pipeline = ____(____=[____])

# Train the pipeline on the training data
pipeline = pipeline.____(____)

# Make predictions on the testing data
predictions = ____.____(____)
Editar y ejecutar código