IniziaInizia gratis

Modello della durata del volo: aggiungere l'aeroporto di origine

Alcuni aeroporti sono più trafficati di altri. Alcuni sono anche più grandi. I voli in partenza da aeroporti grandi o affollati tendono a passare più tempo in rullaggio o in attesa della finestra di decollo. È quindi ragionevole pensare che la durata di un volo possa dipendere non solo dalla distanza da percorrere, ma anche dall'aeroporto di partenza.

Renderai il modello di regressione un po' più sofisticato includendo l'aeroporto di partenza come predittore.

Questi dati sono stati suddivisi in insiemi di training e di test e sono disponibili come flights_train e flights_test. L'aeroporto di origine, memorizzato nella colonna org, è stato indicizzato in org_idx e a sua volta sottoposto a one-hot encoding in org_dummy. I primi record sono mostrati nel terminale.

Questo esercizio fa parte del corso

Machine Learning con PySpark

Visualizza il corso

Istruzioni dell'esercizio

  • Adatta un modello di regressione lineare ai dati di training.
  • Genera le predizioni per i dati di test.
  • Calcola l'RMSE per le predizioni sui dati di test.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

from pyspark.ml.regression import LinearRegression
from pyspark.ml.evaluation import RegressionEvaluator

# Create a regression object and train on training data
regression = ____(____).____(____)

# Create predictions for the testing data
predictions = ____.____(____)

# Calculate the RMSE on testing data
____(____).____(____)
Modifica ed esegui il codice