Kolom kategorikal
Dalam data penerbangan terdapat dua kolom, carrier dan org, yang berisi data kategorikal. Anda perlu mengonversi kolom-kolom tersebut menjadi nilai numerik terindeks.
Latihan ini adalah bagian dari kursus
Machine Learning dengan PySpark
Petunjuk latihan
- Impor kelas yang sesuai dan buat objek indexer untuk mengubah kolom
carrierdari string menjadi indeks numerik. - Siapkan objek indexer pada data penerbangan.
- Gunakan indexer yang telah disiapkan untuk membuat kolom indeks numerik.
- Ulangi proses tersebut untuk kolom
org.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
from pyspark.ml.feature import ____
# Create an indexer
indexer = ____(inputCol=____, outputCol='carrier_idx')
# Indexer identifies categories in the data
indexer_model = indexer.____(flights)
# Indexer creates a new column with numeric index values
flights_indexed = ____.____(____)
# Repeat the process for the other categorical feature
flights_indexed = ____(inputCol=____, outputCol='org_idx').____(____).____(____)
flights_indexed.show(5)