MulaiMulai sekarang secara gratis

Kolom kategorikal

Dalam data penerbangan terdapat dua kolom, carrier dan org, yang berisi data kategorikal. Anda perlu mengonversi kolom-kolom tersebut menjadi nilai numerik terindeks.

Latihan ini adalah bagian dari kursus

Machine Learning dengan PySpark

Lihat Kursus

Petunjuk latihan

  • Impor kelas yang sesuai dan buat objek indexer untuk mengubah kolom carrier dari string menjadi indeks numerik.
  • Siapkan objek indexer pada data penerbangan.
  • Gunakan indexer yang telah disiapkan untuk membuat kolom indeks numerik.
  • Ulangi proses tersebut untuk kolom org.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

from pyspark.ml.feature import ____

# Create an indexer
indexer = ____(inputCol=____, outputCol='carrier_idx')

# Indexer identifies categories in the data
indexer_model = indexer.____(flights)

# Indexer creates a new column with numeric index values
flights_indexed = ____.____(____)

# Repeat the process for the other categorical feature
flights_indexed = ____(inputCol=____, outputCol='org_idx').____(____).____(____)
flights_indexed.show(5)
Edit dan Jalankan Kode