IniziaInizia gratis

Modello della durata del volo: più feature!

Aggiungiamo più feature al nostro modello. Questo non porterà necessariamente a un modello migliore. Aggiungere alcune feature potrebbe migliorarlo, altre potrebbero peggiorarlo.

Più feature renderanno sempre il modello più complesso e difficile da interpretare.

Queste sono le feature che includerai nel prossimo modello:

  • km
  • org (aeroporto di origine, one-hot encoded, 8 livelli)
  • depart (orario di partenza, raggruppato in intervalli di 3 ore, one-hot encoded, 8 livelli)
  • dow (giorno della settimana di partenza, one-hot encoded, 7 livelli) e
  • mon (mese di partenza, one-hot encoded, 12 livelli).

Queste sono state assemblate nella colonna features, che è una rappresentazione sparsa di 32 colonne (ricorda che il one-hot encoding produce un numero di colonne pari a uno in meno rispetto al numero di livelli).

I dati sono disponibili come flights, suddivisi casualmente in flights_train e flights_test.

Questo esercizio si basa su un piccolo sottoinsieme dei dati sui voli.

Questo esercizio fa parte del corso

Machine Learning con PySpark

Visualizza il corso

Istruzioni dell'esercizio

  • Adatta un modello di regressione lineare ai dati di training.
  • Genera le previsioni per i dati di test.
  • Calcola l'RMSE sui dati di test.
  • Osserva i coefficienti del modello. Ce ne sono alcuni pari a zero?

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

from pyspark.ml.regression import ____
from pyspark.ml.evaluation import ____

# Fit linear regression model to training data
regression = ____(____).____(____)

# Make predictions on testing data
predictions = regression.____(____)

# Calculate the RMSE on testing data
rmse = ____(____).____(____)
print("The test RMSE is", rmse)

# Look at the model coefficients
coeffs = regression.____
print(coeffs)
Modifica ed esegui il codice