Model vluchtduur: Alleen afstand
In deze oefening bouw je een regressiemodel om de vluchtduur te voorspellen (de kolom duration).
Voor nu houd je het model eenvoudig en neem je alleen de afstand van de vlucht (de kolom km) op als voorspeller.
De gegevens staan in flights. De eerste paar records worden in de terminal weergegeven. Deze gegevens zijn ook opgesplitst in trainings- en testsets en zijn beschikbaar als flights_train en flights_test.
Deze oefening maakt deel uit van de cursus
Machine Learning met PySpark
Oefeninstructies
- Maak een object voor lineaire regressie. Geef de naam van de labelkolom op. Pas het aan op de trainingsdata.
- Maak voorspellingen op de testdata.
- Maak een object voor een regressie-evaluator en gebruik dit om de RMSE op de testdata te evalueren.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
from pyspark.ml.regression import LinearRegression
from pyspark.ml.evaluation import RegressionEvaluator
# Create a regression object and train on training data
regression = ____(____).____(____)
# Create predictions for the testing data and take a look at the predictions
predictions = ____.____(____)
predictions.select('duration', 'prediction').show(5, False)
# Calculate the RMSE
____(____).____(predictions)