Flugdauer-Modell: Abfahrtszeit hinzufügen
In der letzten Aufgabe haben wir die Abfahrtszeiten in Gruppen eingeteilt und in Dummy-Variablen umgewandelt. Jetzt fügst du diese Dummy-Variablen in ein Regressionsmodell für die Flugdauer ein.
Die Daten sind in „ flights
” (Veränderung der Lebenserwartung in den Vereinigten Staaten, 1 Die Spalten „ km
”, „ org_dummy
” und „ depart_dummy
” wurden in „ features
” zusammengefasst, wobei „ km
” den Index 0 hat, „ org_dummy
” den Index 1 bis 7 und „ depart_dummy
” den Index 8 bis 14.
Die Daten wurden in Trainings- und Testdatensätze aufgeteilt und anhand der Trainingsdaten wurde ein lineares Regressionsmodell erstellt ( regression
). Es wurden Vorhersagen anhand der Testdaten gemacht, die unter predictions
verfügbar sind.
Diese Übung ist Teil des Kurses
Maschinelles Lernen mit PySpark
Anleitung zur Übung
- Berechne den RMSE für die Vorhersagen anhand der Testdaten.
- Ermitteln Sie die durchschnittliche Bodenzeit für Flüge, die zwischen 21:00 und 24:00 Uhr vom Flughafen OGG starten.
- Finde die durchschnittliche Zeit, die Flüge, die zwischen 03:00 und 06:00 Uhr von OGG starten, am Boden verbringen.
- Finde die durchschnittliche Zeit, die Flüge, die zwischen 03:00 und 06:00 Uhr vom JFK abfliegen, am Boden verbringen.
Interaktive Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Find the RMSE on testing data
from pyspark.ml.____ import ____
rmse = ____(____).____(____)
print("The test RMSE is", rmse)
# Average minutes on ground at OGG for flights departing between 21:00 and 24:00
avg_eve_ogg = regression.____
print(avg_eve_ogg)
# Average minutes on ground at OGG for flights departing between 03:00 and 06:00
avg_night_ogg = regression.____ + regression.____[9]
print(avg_night_ogg)
# Average minutes on ground at JFK for flights departing between 03:00 and 06:00
avg_night_jfk = regression.____ + regression.____[____] + regression.____[____]
print(avg_night_jfk)