Modello per la durata del volo: solo distanza
In questo esercizio costruirai un modello di regressione per prevedere la durata del volo (la colonna duration).
Per ora manterrai il modello semplice, includendo come predittore solo la distanza del volo (la colonna km).
I dati sono in flights. I primi record sono mostrati nel terminale. Questi dati sono stati anche suddivisi in insiemi di training e di test e sono disponibili come flights_train e flights_test.
Questo esercizio fa parte del corso
Machine Learning con PySpark
Istruzioni dell'esercizio
- Crea un oggetto di regressione lineare. Specifica il nome della colonna etichetta. Addestralo sui dati di training.
- Fai previsioni sui dati di test.
- Crea un oggetto di valutazione per la regressione e usalo per calcolare la RMSE sui dati di test.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
from pyspark.ml.regression import LinearRegression
from pyspark.ml.evaluation import RegressionEvaluator
# Create a regression object and train on training data
regression = ____(____).____(____)
# Create predictions for the testing data and take a look at the predictions
predictions = ____.____(____)
predictions.select('duration', 'prediction').show(5, False)
# Calculate the RMSE
____(____).____(predictions)