1. Uczyć się
  2. /
  3. Courses
  4. /
  5. Uczenie maszynowe z PySpark

Connected

Exercise

Model czasu lotu: dodawanie godziny odlotu

W poprzednim ćwiczeniu godziny odlotu zostały pogrupowane w przedziały i przekształcone na zmienne zero-jedynkowe. Teraz włączysz te zmienne do modelu regresji przewidującego czas lotu.

Dane znajdują się w zbiorze flights. Kolumny km, org_dummy i depart_dummy zostały zebrane w wektorze features, gdzie km jest pod indeksem 0, org_dummy obejmuje indeksy od 1 do 7, a depart_dummy – od 8 do 14.

Dane zostały podzielone na zbiory treningowy i testowy, a model regresji liniowej regression został wytrenowany na danych treningowych. Predykcje na danych testowych są już dostępne jako predictions.

Instrukcje

100 XP
  • Wyznacz wartość RMSE dla predykcji na zbiorze testowym.
  • Znajdź średni czas spędzony na ziemi dla lotów odlatujących z OGG między 21:00 a 24:00.
  • Znajdź średni czas spędzony na ziemi dla lotów odlatujących z OGG między 03:00 a 06:00.
  • Znajdź średni czas spędzony na ziemi dla lotów odlatujących z JFK między 03:00 a 06:00.