Menyandikan asal penerbangan
Kolom org pada data flights adalah variabel kategorikal yang menyatakan bandar udara asal sebuah penerbangan.
- ORD — O'Hare International Airport (Chicago)
- SFO — San Francisco International Airport
- JFK — John F Kennedy International Airport (New York)
- LGA — La Guardia Airport (New York)
- SMF — Sacramento
- SJC — San Jose
- OGG — Kahului (Hawaii)
Jelas ini hanya sebagian kecil dari semua bandar udara. Namun, karena ini adalah variabel kategorikal, variabel ini perlu diubah menjadi one-hot encoding sebelum dapat digunakan dalam model regresi.
Data tersimpan dalam variabel flights. Anda sudah menggunakan string indexer untuk membuat kolom nilai terindeks yang sesuai dengan string di org.
Anda mungkin ingin meninjau kembali slide dari pelajaran di panel Slides di sebelah IPython Shell.
Latihan ini adalah bagian dari kursus
Machine Learning dengan PySpark
Petunjuk latihan
- Impor kelas one-hot encoder.
- Buat sebuah instance one-hot encoder, dengan kolom masukan bernama
org_idxdan kolom keluaran bernamaorg_dummy. - Terapkan one-hot encoder pada data flights.
- Buat ringkasan pemetaan dari nilai kategorikal ke variabel dummy biner. Sertakan hanya nilai unik dan urutkan berdasarkan
org_idx.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Import the one hot encoder class
from pyspark.ml.____ import ____
# Create an instance of the one hot encoder
onehot = ____(inputCols=[____], outputCols=[____])
# Apply the one hot encoder to the flights data
onehot = onehot.____(____)
flights_onehot = onehot.____(____)
# Check the results
flights_onehot.____('org', 'org_idx', 'org_dummy').____().____('org_idx').show()