Uçuş kalkış havaalanını kodlama
Uçuş verilerindeki org sütunu, bir uçağın kalktığı havaalanını veren kategorik bir değişkendir.
- ORD — O'Hare Uluslararası Havaalanı (Chicago)
- SFO — San Francisco Uluslararası Havaalanı
- JFK — John F. Kennedy Uluslararası Havaalanı (New York)
- LGA — La Guardia Havaalanı (New York)
- SMF — Sacramento
- SJC — San Jose
- OGG — Kahului (Hawaii)
Elbette bu, havaalanlarının yalnızca küçük bir alt kümesi. Yine de bu bir kategorik değişken olduğu için, bir regresyon modelinde kullanılmadan önce one-hot encode edilmesi gerekir.
Veriler flights adlı bir değişkende. org içindeki dizgelere karşılık gelen indekslenmiş değerlerden oluşan bir sütun yaratmak için zaten bir string indexer kullandın.
İşine yarayabileceğini düşünüyorsan, IPython Shell'in yanındaki Slaytlar panelindeki ders slaytlarına tekrar göz atabilirsin.
Bu egzersiz, kursun bir parçasıdır
PySpark ile Machine Learning
Egzersiz talimatları
- One-hot encoder sınıfını içe aktar.
- Girdi sütunu
org_idxve çıktı sütunuorg_dummyolacak şekilde bir one-hot encoder örneği oluştur. - One-hot encoder'ı uçuş verilerine uygula.
- Kategorik değerlerden ikili kodlanmış kukla değişkenlere (dummy) olan eşlemeyi özetleyen bir çıktı üret. Yalnızca benzersiz değerleri dahil et ve
org_idx'e göre sırala.
Uygulamalı etkileşimli egzersiz
Bu egzersizi bu örnek kodu tamamlayarak deneyin.
# Import the one hot encoder class
from pyspark.ml.____ import ____
# Create an instance of the one hot encoder
onehot = ____(inputCols=[____], outputCols=[____])
# Apply the one hot encoder to the flights data
onehot = onehot.____(____)
flights_onehot = onehot.____(____)
# Check the results
flights_onehot.____('org', 'org_idx', 'org_dummy').____().____('org_idx').show()