Modello della durata del volo: aggiungere l'orario di partenza
Nel precedente esercizio l'orario di partenza è stato suddiviso in intervalli (bucketed) e convertito in variabili dummy. Ora includerai queste variabili dummy in un modello di regressione per la durata del volo.
I dati sono in flights. Le colonne km, org_dummy e depart_dummy sono state assemblate in features, dove km è all'indice 0, org_dummy va dall'indice 1 al 7 e depart_dummy dall'indice 8 al 14.
I dati sono stati suddivisi in training e test set e un modello di regressione lineare, regression, è stato addestrato sui dati di training. Le predizioni sono state effettuate sui dati di test e sono disponibili come predictions.
Questo esercizio fa parte del corso
Machine Learning con PySpark
Istruzioni dell'esercizio
- Trova l'RMSE per le predizioni sui dati di test.
- Trova il tempo medio trascorso a terra per i voli in partenza da OGG tra le 21:00 e le 24:00.
- Trova il tempo medio trascorso a terra per i voli in partenza da OGG tra le 03:00 e le 06:00.
- Trova il tempo medio trascorso a terra per i voli in partenza da JFK tra le 03:00 e le 06:00.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Find the RMSE on testing data
from pyspark.ml.____ import ____
rmse = ____(____).____(____)
print("The test RMSE is", rmse)
# Average minutes on ground at OGG for flights departing between 21:00 and 24:00
avg_eve_ogg = regression.____
print(avg_eve_ogg)
# Average minutes on ground at OGG for flights departing between 03:00 and 06:00
avg_night_ogg = regression.____ + regression.____[9]
print(avg_night_ogg)
# Average minutes on ground at JFK for flights departing between 03:00 and 06:00
avg_night_jfk = regression.____ + regression.____[____] + regression.____[____]
print(avg_night_jfk)