1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Machine Learning with PySpark

Connected

Cvičení

Rozdělení času odletu do intervalů

Denní čas je v regresních modelech trochu oříšek. Zároveň je to ideální kandidát pro rozdělení do intervalů (bucketing).

V této lekci převedeš časy odletů z číselných hodnot v rozsahu 0 (odpovídá 00:00) až 24 (odpovídá 24:00) do binovaných hodnot. Ty pak zakódujete metodou one-hot encoding.

Pokyny

100 XP
  • Vytvoř objekt bucketizeru s hranicemi intervalů 0, 3, 6, …, 24, které odpovídají časům 0:00, 03:00, 06:00, …, 24:00. Jako vstupní sloupec zadej depart a jako výstupní depart_bucket.
  • Rozděl časy odletů v datech flights do intervalů. Zobraz prvních pět hodnot pro sloupce depart a depart_bucket.
  • Vytvoř objekt one-hot enkodéru — jako vstupní sloupec zadej depart_bucket a jako výstupní depart_dummy.
  • Natrénuj enkodér na binovaných datech a pomocí něj je transformuj na dummy proměnné. Zobraz prvních pět hodnot pro sloupce depart, depart_bucket a depart_dummy.