Modello di durata del volo: modello Pipeline
Ora sei pronto per mettere insieme queste fasi in una pipeline.
Costruirai la pipeline e poi la addestrerai sui dati di training. Questo applicherà, a turno, ciascuna delle singole fasi della pipeline ai dati di training. Nessuna delle fasi verrà esposta ai dati di test: non ci sarà alcuna leakage!
Una volta addestrata l'intera pipeline, verrà usata per fare previsioni sui dati di test.
I dati sono disponibili come flights, che è stato suddiviso casualmente in flights_train e flights_test.
Questo esercizio fa parte del corso
Machine Learning con PySpark
Istruzioni dell'esercizio
- Importa la classe per creare una pipeline.
- Crea un oggetto pipeline e specifica le fasi
indexer,onehot,assemblereregression, in quest'ordine. - Addestra la pipeline sui dati di training.
- Genera previsioni sui dati di test.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Import class for creating a pipeline
from pyspark.____ import ____
# Construct a pipeline
pipeline = ____(____=[____])
# Train the pipeline on the training data
pipeline = pipeline.____(____)
# Make predictions on the testing data
predictions = ____.____(____)