Interpretation der Koeffizienten
Denk dran, dass der Abflughafen „ org
“ acht mögliche Werte hat (ORD, SFO, JFK, LGA, SMF, SJC, TUS und OGG), die in „ org_dummy
“ mit einer Ein-Hot-Kodierung in sieben Dummy-Variablen umgewandelt wurden.
Die Werte für „ km
“ und „ org_dummy
“ wurden in „ features
“ zusammengefasst, das acht Spalten mit spärlicher Darstellung hat. Die Spaltenindizes in „ features
“ sind wie folgt:
- 0 —
km
- 1 —
ORD
- 2 —
SFO
- 3 —
JFK
- 4 —
LGA
- 5 —
SMF
- 6 —
SJC
und - 7 —
TUS
.
Beachte, dass „ OGG
” nicht in dieser Liste auftaucht, weil es die Referenzstufe für die Kategorie „Flughafen am Abflugort” ist.
Ein Beispiel für „ LinearRegression
” findest du unter regression
. In dieser Übung wirst du die Attribute „ intercept
“ und „ coefficients
“ verwenden, um das Modell zu interpretieren.
Das Attribut „ coefficients
“ ist eine Liste, wo das erste Element angibt, wie sich die Flugdauer mit der Flugentfernung ändert.
Diese Übung ist Teil des Kurses
Maschinelles Lernen mit PySpark
Anleitung zur Übung
- Berechne die Durchschnittsgeschwindigkeit in km pro Stunde. Das wird anders aussehen als der Wert, den du vorher bekommen hast, weil dein Modell jetzt besser ist.
- Wie lange dauert man im Schnitt am Flughafen OGG?
- Wie lange dauert man im Schnitt am JFK?
- Wie lange dauert man im Schnitt am Flughafen LGA?
Interaktive Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Average speed in km per hour
avg_speed_hour = ____
print(avg_speed_hour)
# Average minutes on ground at OGG
inter = regression.____
print(inter)
# Average minutes on ground at JFK
avg_ground_jfk = ____ + regression.____[____]
print(avg_ground_jfk)
# Average minutes on ground at LGA
avg_ground_lga = ____ + regression.____[____]
print(avg_ground_lga)