1. Uczyć się
  2. /
  3. Courses
  4. /
  5. Uczenie maszynowe z PySpark

Connected

Exercise

Model czasu lotu: dodawanie lotniska wylotu

Jedne lotniska są bardziej ruchliwe, inne – większe. Loty wylatujące z dużych lub zatłoczonych lotnisk prawdopodobnie spędzają więcej czasu na kołowaniu lub oczekiwaniu na okno startowe. Ma więc sens, że czas trwania lotu może zależeć nie tylko od pokonanej odległości, ale też od lotniska wylotu.

Sprawisz teraz, że model regresji będzie nieco bardziej zaawansowany – dodasz lotnisko wylotu jako predyktor.

Dane zostały podzielone na zbiory treningowy i testowy, dostępne jako flights_train i flights_test. Lotnisko wylotu, przechowywane w kolumnie org, zostało zaindeksowane do org_idx, a następnie zakodowane metodą one-hot do org_dummy. Kilka pierwszych rekordów jest wyświetlonych w terminalu.

Instrukcje

100 XP
  • Dopasuj model regresji liniowej do danych treningowych.
  • Wygeneruj predykcje dla danych testowych.
  • Oblicz RMSE dla predykcji na danych testowych.