1. 学ぶ
  2. /
  3. コース
  4. /
  5. Uczenie maszynowe z PySpark

Connected

演習

Kodowanie lotniska wylotu

Kolumna org w zbiorze danych o lotach to zmienna kategoryczna określająca lotnisko, z którego dany lot odlatuje.

  • ORD — O'Hare International Airport (Chicago)
  • SFO — San Francisco International Airport
  • JFK — John F Kennedy International Airport (Nowy Jork)
  • LGA — La Guardia Airport (Nowy Jork)
  • SMF — Sacramento
  • SJC — San Jose
  • OGG — Kahului (Hawaje)

To oczywiście tylko mały podzbiór lotnisk. Ponieważ jednak jest to zmienna kategoryczna, przed użyciem w modelu regresji należy ją zakodować metodą one-hot.

Dane znajdują się w zmiennej flights. Koder łańcuchów (string indexer) został już zastosowany i utworzył kolumnę z wartościami indeksowymi odpowiadającymi ciągom znaków w kolumnie org.

Warto przejrzeć slajdy z lekcji dostępne w panelu Slajdy obok powłoki IPython.

指示

100 XP
  • Zaimportuj klasę kodera one-hot.
  • Utwórz instancję kodera one-hot, nazywając kolumnę wejściową org_idx, a wyjściową org_dummy.
  • Zastosuj koder one-hot do zbioru danych o lotach.
  • Wygeneruj zestawienie mapowania wartości kategorycznych na binarne zmienne zastępcze (dummy). Uwzględnij tylko unikalne wartości i posortuj według org_idx.