Model voor vluchtduur: vertrekairport toevoegen
Sommige airports zijn drukker dan andere. Sommige airports zijn ook groter. Vluchten die vertrekken vanaf grote of drukke airports brengen waarschijnlijk meer tijd door met taxiën of wachten op hun startslot. Het ligt dus voor de hand dat de duur van een vlucht niet alleen afhangt van de afgelegde afstand, maar ook van de airport waarvandaan de vlucht vertrekt.
Je gaat het regressiemodel iets verfijnder maken door de vertrekairport als predictor op te nemen.
Deze gegevens zijn opgesplitst in trainings- en testsets en zijn beschikbaar als flights_train en flights_test. De vertrekairport, opgeslagen in de kolom org, is geïndexeerd naar org_idx, en vervolgens one-hot encoded naar org_dummy. De eerste paar records worden in de terminal weergegeven.
Deze oefening maakt deel uit van de cursus
Machine Learning met PySpark
Oefeninstructies
- Fit een lineair regressiemodel op de trainingsgegevens.
- Maak voorspellingen voor de testgegevens.
- Bereken de RMSE voor de voorspellingen op de testgegevens.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
from pyspark.ml.regression import LinearRegression
from pyspark.ml.evaluation import RegressionEvaluator
# Create a regression object and train on training data
regression = ____(____).____(____)
# Create predictions for the testing data
predictions = ____.____(____)
# Calculate the RMSE on testing data
____(____).____(____)