MulaiMulai sekarang secara gratis

Menyandikan asal penerbangan

Kolom org pada data flights adalah variabel kategorikal yang menyatakan bandar udara asal sebuah penerbangan.

  • ORD — O'Hare International Airport (Chicago)
  • SFO — San Francisco International Airport
  • JFK — John F Kennedy International Airport (New York)
  • LGA — La Guardia Airport (New York)
  • SMF — Sacramento
  • SJC — San Jose
  • OGG — Kahului (Hawaii)

Jelas ini hanya sebagian kecil dari semua bandar udara. Namun, karena ini adalah variabel kategorikal, variabel ini perlu diubah menjadi one-hot encoding sebelum dapat digunakan dalam model regresi.

Data tersimpan dalam variabel flights. Anda sudah menggunakan string indexer untuk membuat kolom nilai terindeks yang sesuai dengan string di org.

Anda mungkin ingin meninjau kembali slide dari pelajaran di panel Slides di sebelah IPython Shell.

Latihan ini adalah bagian dari kursus

Machine Learning dengan PySpark

Lihat Kursus

Petunjuk latihan

  • Impor kelas one-hot encoder.
  • Buat sebuah instance one-hot encoder, dengan kolom masukan bernama org_idx dan kolom keluaran bernama org_dummy.
  • Terapkan one-hot encoder pada data flights.
  • Buat ringkasan pemetaan dari nilai kategorikal ke variabel dummy biner. Sertakan hanya nilai unik dan urutkan berdasarkan org_idx.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Import the one hot encoder class
from pyspark.ml.____ import ____

# Create an instance of the one hot encoder
onehot = ____(inputCols=[____], outputCols=[____])

# Apply the one hot encoder to the flights data
onehot = onehot.____(____)
flights_onehot = onehot.____(____)

# Check the results
flights_onehot.____('org', 'org_idx', 'org_dummy').____().____('org_idx').show()
Edit dan Jalankan Kode