MulaiMulai sekarang secara gratis

Binerisasi Hari dalam Minggu

Pada video sebelumnya, kita melihat bahwa kecil kemungkinan sebuah rumah akan terdaftar pada akhir pekan. Mari kita buat kolom baru yang menunjukkan apakah rumah tercantum untuk dijual pada hari kerja atau tidak. Pada contoh ini ada kolom bernama List_Day_of_Week dengan Senin dilabeli 1.0 dan Minggu 7.0. Mari kita ubah ini menjadi kolom biner dengan hari kerja sebagai 0 dan akhir pekan sebagai 1. Kita dapat menggunakan transformer fitur pyspark Binarizer untuk melakukannya.

Latihan ini adalah bagian dari kursus

Rekayasa Fitur dengan PySpark

Lihat Kursus

Petunjuk latihan

  • Impor transformer fitur Binarizer dari pyspark dan modul ml.feature.
  • Buat transformernya menggunakan Binarizer() dengan ambang untuk menetapkan nilai 1 sebagai apa pun setelah Jumat, 5.0, lalu tetapkan kolom masukan sebagai List_Day_of_Week dan kolom keluaran sebagai Listed_On_Weekend.
  • Terapkan transformasi binarizer pada df menggunakan transform().
  • Verifikasi bahwa transformasi berjalan dengan benar dengan menyeleksi kolom List_Day_of_Week dan Listed_On_Weekend menggunakan show().

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Import transformer
from pyspark.____.____ import ____

# Create the transformer
binarizer = ____(threshold=____ inputCol=____, outputCol=____)

# Apply the transformation to df
df = binarizer.____(____)

# Verify transformation
df[[____, ____]].____()
Edit dan Jalankan Kode