Erste SchritteKostenlos loslegen

Flugdauer-Modell: Hinzufügen des Herkunftsflughafens

Auf manchen Flughäfen ist mehr los als auf anderen. Manche Flughäfen sind auch größer als andere. Flüge, die von großen oder stark frequentierten Flughäfen abfliegen, verbringen wahrscheinlich mehr Zeit mit dem Rollen oder Warten auf ihre Startzeit. Es liegt also auf der Hand, dass die Dauer eines Fluges nicht nur von der zurückgelegten Strecke abhängt, sondern auch von dem Flughafen, von dem aus der Flug abgeht.

Du wirst das Regressionsmodell ein wenig verfeinern, indem du den Abflughafen als Prädiktor einbeziehst.

Diese Daten wurden in Trainings- und Testdatensätze aufgeteilt und sind als flights_train und flights_test verfügbar. Der Herkunftsflughafen, der in der Spalte org gespeichert ist, wurde in org_idx indexiert, der wiederum in org_dummy einhändig kodiert wurde. Die ersten paar Datensätze werden im Terminal angezeigt.

Diese Übung ist Teil des Kurses

Maschinelles Lernen mit PySpark

Kurs anzeigen

Anleitung zur Übung

  • Passe ein lineares Regressionsmodell an die Trainingsdaten an.
  • Mache Vorhersagen für die Testdaten.
  • Berechne den RMSE für die Vorhersagen aus den Testdaten.

Interaktive Übung zum Anfassen

Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.

from pyspark.ml.regression import LinearRegression
from pyspark.ml.evaluation import RegressionEvaluator

# Create a regression object and train on training data
regression = ____(____).____(____)

# Create predictions for the testing data
predictions = ____.____(____)

# Calculate the RMSE on testing data
____(____).____(____)
Bearbeiten und Ausführen von Code