Modelo de duración del vuelo: Modelo de canalización
Ahora ya estás listo para unir esas etapas en un proceso.
Construirás el pipeline y luego lo entrenarás con los datos de entrenamiento. Esto aplicará cada una de las etapas individuales del proceso a los datos de entrenamiento de forma sucesiva. Ninguna de las etapas estará expuesta a los datos de prueba en absoluto: ¡no habrá fugas!
Una vez que se haya entrenado todo el proceso, se utilizará para realizar predicciones sobre los datos de prueba.
Los datos están disponibles en flights
, que se ha dividido aleatoriamente en flights_train
y flights_test
.
Este ejercicio forma parte del curso
Machine learning con PySpark
Instrucciones del ejercicio
- Importa la clase para crear una canalización.
- Crea un objeto de canalización y especifica las etapas «
indexer
», «onehot
», «assembler
» y «regression
», en este orden. - Entrena el pipeline con los datos de entrenamiento.
- Realiza predicciones sobre los datos de las pruebas.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Import class for creating a pipeline
from pyspark.____ import ____
# Construct a pipeline
pipeline = ____(____=[____])
# Train the pipeline on the training data
pipeline = pipeline.____(____)
# Make predictions on the testing data
predictions = ____.____(____)