Flugdauer-Modell: Startflughafen hinzufügen
Manche Flughäfen sind voller als andere. Manche Flughäfen sind auch größer als andere. Flüge, die von großen oder viel frequentierten Flughäfen starten, brauchen oft länger zum Rollen oder müssen länger auf ihre Startfreigabe warten. Es ist also klar, dass die Dauer eines Fluges nicht nur von der Entfernung abhängt, sondern auch davon, von welchem Flughafen der Flug startet.
Du wirst das Regressionsmodell ein bisschen verfeinern, indem du den Abflughafen als Prädiktor hinzufügst.
Diese Daten wurden in Trainings- und Testdatensätze aufgeteilt und sind unter flights_train
und flights_test
verfügbar. Der Abflughafen, der in der Spalte „ org
“ gespeichert ist, wurde in „ org_idx
“ indexiert, was wiederum in „ org_dummy
“ one-hot-codiert wurde. Die ersten paar Datensätze werden im Terminal angezeigt.
Diese Übung ist Teil des Kurses
Maschinelles Lernen mit PySpark
Anleitung zur Übung
- Pass ein lineares Regressionsmodell an die Trainingsdaten an.
- Mach mal ein paar Vorhersagen für die Testdaten.
- Berechne den RMSE für die Vorhersagen anhand der Testdaten.
Interaktive Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
from pyspark.ml.regression import LinearRegression
from pyspark.ml.evaluation import RegressionEvaluator
# Create a regression object and train on training data
regression = ____(____).____(____)
# Create predictions for the testing data
predictions = ____.____(____)
# Calculate the RMSE on testing data
____(____).____(____)