Flugdauer-Modell: Einfach Abstand halten
In dieser Übung erstellst du ein Regressionsmodell, um die Flugdauer (die Spalte „ duration
“) vorherzusagen.
Fürs Erste machst du das Modell einfach und nimmst nur die Flugstrecke (die Spalte „ km
“) als Vorhersagevariable.
Die Daten sind in „ flights
” (Veränderung der Lebenserwartung in den Vereinigten Staaten, 1 Die ersten paar Datensätze werden im Terminal angezeigt. Diese Daten wurden auch in Trainings- und Testdatensätze aufgeteilt und sind unter flights_train
und flights_test
verfügbar.
Diese Übung ist Teil des Kurses
Maschinelles Lernen mit PySpark
Anleitung zur Übung
- Erstell ein lineares Regressionsobjekt. Gib den Namen der Beschriftungsspalte an. Passe es an die Trainingsdaten an.
- Mach mal ein paar Vorhersagen zu den Testdaten.
- Erstell ein Regressionsauswertungsobjekt und benutze es, um den RMSE für die Testdaten zu berechnen.
Interaktive Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
from pyspark.ml.regression import LinearRegression
from pyspark.ml.evaluation import RegressionEvaluator
# Create a regression object and train on training data
regression = ____(____).____(____)
# Create predictions for the testing data and take a look at the predictions
predictions = ____.____(____)
predictions.select('duration', 'prediction').show(5, False)
# Calculate the RMSE
____(____).____(predictions)