Modelo de duración del vuelo: Modelo de tubería
Ahora estás preparado para juntar esas etapas en una tubería.
Construirás la canalización y luego la entrenarás con los datos de entrenamiento. Esto aplicará cada una de las etapas individuales de la cadena a los datos de entrenamiento sucesivamente. Ninguna de las etapas estará expuesta en absoluto a los datos de la prueba: ¡no habrá fugas!
Una vez entrenada toda la tubería, se utilizará para hacer predicciones sobre los datos de prueba.
Los datos están disponibles como flights
, que se ha dividido aleatoriamente en flights_train
y flights_test
.
Este ejercicio forma parte del curso
Machine learning con PySpark
Instrucciones de ejercicio
- Importa la clase para crear una tubería.
- Crea un objeto pipeline y especifica las etapas
indexer
,onehot
,assembler
yregression
, en este orden. - Entrena la tubería con los datos de entrenamiento.
- Haz predicciones sobre los datos de las pruebas.
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
# Import class for creating a pipeline
from pyspark.____ import ____
# Construct a pipeline
pipeline = ____(____=[____])
# Train the pipeline on the training data
pipeline = pipeline.____(____)
# Make predictions on the testing data
predictions = ____.____(____)