Binerisasi Hari dalam Minggu
Pada video sebelumnya, kita melihat bahwa kecil kemungkinan sebuah rumah akan terdaftar pada akhir pekan. Mari kita buat kolom baru yang menunjukkan apakah rumah tercantum untuk dijual pada hari kerja atau tidak. Pada contoh ini ada kolom bernama List_Day_of_Week dengan Senin dilabeli 1.0 dan Minggu 7.0. Mari kita ubah ini menjadi kolom biner dengan hari kerja sebagai 0 dan akhir pekan sebagai 1. Kita dapat menggunakan transformer fitur pyspark Binarizer untuk melakukannya.
Latihan ini adalah bagian dari kursus
Rekayasa Fitur dengan PySpark
Petunjuk latihan
- Impor transformer fitur
Binarizerdaripysparkdan modulml.feature. - Buat transformernya menggunakan
Binarizer()dengan ambang untuk menetapkan nilai 1 sebagai apa pun setelah Jumat, 5.0, lalu tetapkan kolom masukan sebagaiList_Day_of_Weekdan kolom keluaran sebagaiListed_On_Weekend. - Terapkan transformasi binarizer pada
dfmenggunakantransform(). - Verifikasi bahwa transformasi berjalan dengan benar dengan menyeleksi kolom
List_Day_of_WeekdanListed_On_Weekendmenggunakanshow().
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Import transformer
from pyspark.____.____ import ____
# Create the transformer
binarizer = ____(threshold=____ inputCol=____, outputCol=____)
# Apply the transformation to df
df = binarizer.____(____)
# Verify transformation
df[[____, ____]].____()