Flugdauer-Modell: Hinzufügen der Abfahrtszeit
In der vorangegangenen Übung wurden die Abfahrtszeiten zusammengefasst und in Dummy-Variablen umgewandelt. Jetzt wirst du diese Dummy-Variablen in ein Regressionsmodell für die Flugdauer einbeziehen.
Die Daten sind unter flights
zu finden. Die Spalten km
, org_dummy
und depart_dummy
wurden zu features
zusammengefasst, wobei km
der Index 0 ist, org_dummy
von Index 1 bis 7 läuft und depart_dummy
von Index 8 bis 14.
Die Daten wurden in einen Trainings- und einen Testdatensatz aufgeteilt und ein lineares Regressionsmodell, regression
, wurde auf den Trainingsdaten aufgebaut. Die Vorhersagen wurden anhand der Testdaten erstellt und sind unter predictions
verfügbar.
Diese Übung ist Teil des Kurses
Maschinelles Lernen mit PySpark
Anleitung zur Übung
- Finde den RMSE für die Vorhersagen für die Testdaten.
- Finde die durchschnittliche Aufenthaltsdauer am Boden für Flüge, die zwischen 21:00 und 24:00 Uhr von OGG abfliegen.
- Finde die durchschnittliche Zeit am Boden für Flüge, die zwischen 03:00 und 06:00 Uhr von OGG abfliegen.
- Finde die durchschnittliche Aufenthaltsdauer am Boden für Flüge, die zwischen 03:00 und 06:00 Uhr von JFK abfliegen.
Interaktive Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Find the RMSE on testing data
from pyspark.ml.____ import ____
rmse = ____(____).____(____)
print("The test RMSE is", rmse)
# Average minutes on ground at OGG for flights departing between 21:00 and 24:00
avg_eve_ogg = regression.____
print(avg_eve_ogg)
# Average minutes on ground at OGG for flights departing between 03:00 and 06:00
avg_night_ogg = regression.____ + regression.____[9]
print(avg_night_ogg)
# Average minutes on ground at JFK for flights departing between 03:00 and 06:00
avg_night_jfk = regression.____ + regression.____[____] + regression.____[____]
print(avg_night_jfk)