IniziaInizia gratis

Modello di durata del volo: modello Pipeline

Ora sei pronto per mettere insieme queste fasi in una pipeline.

Costruirai la pipeline e poi la addestrerai sui dati di training. Questo applicherà, a turno, ciascuna delle singole fasi della pipeline ai dati di training. Nessuna delle fasi verrà esposta ai dati di test: non ci sarà alcuna leakage!

Una volta addestrata l'intera pipeline, verrà usata per fare previsioni sui dati di test.

I dati sono disponibili come flights, che è stato suddiviso casualmente in flights_train e flights_test.

Questo esercizio fa parte del corso

Machine Learning con PySpark

Visualizza il corso

Istruzioni dell'esercizio

  • Importa la classe per creare una pipeline.
  • Crea un oggetto pipeline e specifica le fasi indexer, onehot, assembler e regression, in quest'ordine.
  • Addestra la pipeline sui dati di training.
  • Genera previsioni sui dati di test.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Import class for creating a pipeline
from pyspark.____ import ____

# Construct a pipeline
pipeline = ____(____=[____])

# Train the pipeline on the training data
pipeline = pipeline.____(____)

# Make predictions on the testing data
predictions = ____.____(____)
Modifica ed esegui il codice