LoslegenKostenlos loslegen

Flugdauer-Modell: Startflughafen hinzufügen

Manche Flughäfen sind voller als andere. Manche Flughäfen sind auch größer als andere. Flüge, die von großen oder viel frequentierten Flughäfen starten, brauchen oft länger zum Rollen oder müssen länger auf ihre Startfreigabe warten. Es ist also klar, dass die Dauer eines Fluges nicht nur von der Entfernung abhängt, sondern auch davon, von welchem Flughafen der Flug startet.

Du wirst das Regressionsmodell ein bisschen verfeinern, indem du den Abflughafen als Prädiktor hinzufügst.

Diese Daten wurden in Trainings- und Testdatensätze aufgeteilt und sind unter flights_train und flights_test verfügbar. Der Abflughafen, der in der Spalte „ org “ gespeichert ist, wurde in „ org_idx “ indexiert, was wiederum in „ org_dummy “ one-hot-codiert wurde. Die ersten paar Datensätze werden im Terminal angezeigt.

Diese Übung ist Teil des Kurses

Maschinelles Lernen mit PySpark

Kurs anzeigen

Anleitung zur Übung

  • Pass ein lineares Regressionsmodell an die Trainingsdaten an.
  • Mach mal ein paar Vorhersagen für die Testdaten.
  • Berechne den RMSE für die Vorhersagen anhand der Testdaten.

Interaktive Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

from pyspark.ml.regression import LinearRegression
from pyspark.ml.evaluation import RegressionEvaluator

# Create a regression object and train on training data
regression = ____(____).____(____)

# Create predictions for the testing data
predictions = ____.____(____)

# Calculate the RMSE on testing data
____(____).____(____)
Code bearbeiten und ausführen