Uçuş kalkış havaalanını kodlama
Uçuş verilerindeki org sütunu, bir uçağın kalktığı havaalanını veren kategorik bir değişkendir.
- ORD — O'Hare Uluslararası Havaalanı (Chicago)
- SFO — San Francisco Uluslararası Havaalanı
- JFK — John F. Kennedy Uluslararası Havaalanı (New York)
- LGA — La Guardia Havaalanı (New York)
- SMF — Sacramento
- SJC — San Jose
- OGG — Kahului (Hawaii)
Elbette bu, havaalanlarının yalnızca küçük bir alt kümesi. Yine de bu bir kategorik değişken olduğu için, bir regresyon modelinde kullanılmadan önce one-hot encode edilmesi gerekir.
Veriler flights adlı bir değişkende. org içindeki dizgelere karşılık gelen indekslenmiş değerlerden oluşan bir sütun yaratmak için zaten bir string indexer kullandın.
İşine yarayabileceğini düşünüyorsan, IPython Shell'in yanındaki Slaytlar panelindeki ders slaytlarına tekrar göz atabilirsin.
Bu egzersiz
PySpark ile Machine Learning
kursunun bir parçasıdırEgzersiz talimatları
- One-hot encoder sınıfını içe aktar.
- Girdi sütunu
org_idxve çıktı sütunuorg_dummyolacak şekilde bir one-hot encoder örneği oluştur. - One-hot encoder'ı uçuş verilerine uygula.
- Kategorik değerlerden ikili kodlanmış kukla değişkenlere (dummy) olan eşlemeyi özetleyen bir çıktı üret. Yalnızca benzersiz değerleri dahil et ve
org_idx'e göre sırala.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Import the one hot encoder class
from pyspark.ml.____ import ____
# Create an instance of the one hot encoder
onehot = ____(inputCols=[____], outputCols=[____])
# Apply the one hot encoder to the flights data
onehot = onehot.____(____)
flights_onehot = onehot.____(____)
# Check the results
flights_onehot.____('org', 'org_idx', 'org_dummy').____().____('org_idx').show()