Aan de slagGa gratis aan de slag

Model vluchtduur: Alleen afstand

In deze oefening bouw je een regressiemodel om de vluchtduur te voorspellen (de kolom duration).

Voor nu houd je het model eenvoudig en neem je alleen de afstand van de vlucht (de kolom km) op als voorspeller.

De gegevens staan in flights. De eerste paar records worden in de terminal weergegeven. Deze gegevens zijn ook opgesplitst in trainings- en testsets en zijn beschikbaar als flights_train en flights_test.

Deze oefening maakt deel uit van de cursus

Machine Learning met PySpark

Cursus bekijken

Oefeninstructies

  • Maak een object voor lineaire regressie. Geef de naam van de labelkolom op. Pas het aan op de trainingsdata.
  • Maak voorspellingen op de testdata.
  • Maak een object voor een regressie-evaluator en gebruik dit om de RMSE op de testdata te evalueren.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

from pyspark.ml.regression import LinearRegression
from pyspark.ml.evaluation import RegressionEvaluator

# Create a regression object and train on training data
regression = ____(____).____(____)

# Create predictions for the testing data and take a look at the predictions
predictions = ____.____(____)
predictions.select('duration', 'prediction').show(5, False)

# Calculate the RMSE
____(____).____(predictions)
Code bewerken en uitvoeren