1. Uczyć się
  2. /
  3. Courses
  4. /
  5. Uczenie maszynowe z PySpark

Connected

Exercise

Model czasu lotu: więcej cech!

Dodajmy do modelu więcej cech. Nie musi to jednak oznaczać, że model będzie lepszy – niektóre cechy mogą go poprawić, inne mogą go pogorszyć.

Więcej cech zawsze sprawia, że model staje się bardziej złożony i trudniejszy do interpretacji.

Oto cechy, które zostaną uwzględnione w kolejnym modelu:

  • km
  • org (lotnisko wylotu, zakodowane metodą one-hot, 8 poziomów)
  • depart (godzina odlotu, podzielona na 3-godzinne przedziały, zakodowana metodą one-hot, 8 poziomów)
  • dow (dzień tygodnia odlotu, zakodowany metodą one-hot, 7 poziomów) oraz
  • mon (miesiąc odlotu, zakodowany metodą one-hot, 12 poziomów).

Wszystkie te cechy zostały zebrane w kolumnie features, która jest rzadką reprezentacją 32 kolumn (pamiętaj, że kodowanie one-hot daje liczbę kolumn o jeden mniejszą niż liczba poziomów).

Dane są dostępne jako flights i zostały losowo podzielone na flights_train i flights_test.

To ćwiczenie opiera się na niewielkim podzbiorze danych o lotach.

Instrukcje

100 XP
  • Dopasuj model regresji liniowej do danych treningowych.
  • Wygeneruj predykcje dla danych testowych.
  • Oblicz RMSE na danych testowych.
  • Przyjrzyj się współczynnikom modelu. Czy któryś z nich wynosi zero?