LoslegenKostenlos loslegen

Flugdauer-Modell: Hinzufügen der Abfahrtszeit

In der vorangegangenen Übung wurden die Abfahrtszeiten zusammengefasst und in Dummy-Variablen umgewandelt. Jetzt wirst du diese Dummy-Variablen in ein Regressionsmodell für die Flugdauer einbeziehen.

Die Daten sind unter flights zu finden. Die Spalten km, org_dummy und depart_dummy wurden zu features zusammengefasst, wobei km der Index 0 ist, org_dummy von Index 1 bis 7 läuft und depart_dummy von Index 8 bis 14.

Die Daten wurden in einen Trainings- und einen Testdatensatz aufgeteilt und ein lineares Regressionsmodell, regression, wurde auf den Trainingsdaten aufgebaut. Die Vorhersagen wurden anhand der Testdaten erstellt und sind unter predictions verfügbar.

Diese Übung ist Teil des Kurses

Maschinelles Lernen mit PySpark

Kurs anzeigen

Anleitung zur Übung

  • Finde den RMSE für die Vorhersagen für die Testdaten.
  • Finde die durchschnittliche Aufenthaltsdauer am Boden für Flüge, die zwischen 21:00 und 24:00 Uhr von OGG abfliegen.
  • Finde die durchschnittliche Zeit am Boden für Flüge, die zwischen 03:00 und 06:00 Uhr von OGG abfliegen.
  • Finde die durchschnittliche Aufenthaltsdauer am Boden für Flüge, die zwischen 03:00 und 06:00 Uhr von JFK abfliegen.

Interaktive Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Find the RMSE on testing data
from pyspark.ml.____ import ____
rmse = ____(____).____(____)
print("The test RMSE is", rmse)

# Average minutes on ground at OGG for flights departing between 21:00 and 24:00
avg_eve_ogg = regression.____
print(avg_eve_ogg)

# Average minutes on ground at OGG for flights departing between 03:00 and 06:00
avg_night_ogg = regression.____ + regression.____[9]
print(avg_night_ogg)

# Average minutes on ground at JFK for flights departing between 03:00 and 06:00
avg_night_jfk = regression.____ + regression.____[____] + regression.____[____]
print(avg_night_jfk)
Code bearbeiten und ausführen