1. Uczyć się
  2. /
  3. Courses
  4. /
  5. Uczenie maszynowe z PySpark

Connected

Exercise

Grupowanie godzin odlotu

Dane dotyczące pory dnia bywają problematyczne w modelach regresji. Świetnie nadają się jednak do grupowania w przedziały.

W tym ćwiczeniu przekształcisz godziny odlotu z wartości liczbowych z zakresu od 0 (odpowiadającego 00:00) do 24 (odpowiadającego 24:00) na wartości pogrupowane w przedziały. Następnie zastosujesz do nich kodowanie one-hot.

Instrukcje

100 XP
  • Utwórz obiekt klasy Bucketizer z granicami przedziałów 0, 3, 6, …, 24, odpowiadającymi godzinom 0:00, 03:00, 06:00, …, 24:00. Ustaw kolumnę wejściową na depart, a wyjściową na depart_bucket.
  • Pogrupuj godziny odlotu w zbiorze danych flights. Wyświetl pięć pierwszych wartości kolumn depart i depart_bucket.
  • Utwórz obiekt kodera one-hot, wskazując depart_bucket jako kolumnę wejściową i depart_dummy jako kolumnę wyjściową.
  • Dopasuj koder do pogrupowanych danych, a następnie użyj go do przekształcenia tych danych na zmienne binarne. Wyświetl pięć pierwszych wartości kolumn depart, depart_bucket i depart_dummy.