Mulai sekarangMulai gratis

Binerisasi Hari dalam Minggu

Pada video sebelumnya, kita melihat bahwa kecil kemungkinan sebuah rumah akan terdaftar pada akhir pekan. Mari kita buat kolom baru yang menunjukkan apakah rumah tercantum untuk dijual pada hari kerja atau tidak. Pada contoh ini ada kolom bernama List_Day_of_Week dengan Senin dilabeli 1.0 dan Minggu 7.0. Mari kita ubah ini menjadi kolom biner dengan hari kerja sebagai 0 dan akhir pekan sebagai 1. Kita dapat menggunakan transformer fitur pyspark Binarizer untuk melakukannya.

Latihan ini merupakan bagian dari kursus

Rekayasa Fitur dengan PySpark

Lihat Kursus

Instruksi latihan

  • Impor transformer fitur Binarizer dari pyspark dan modul ml.feature.
  • Buat transformernya menggunakan Binarizer() dengan ambang untuk menetapkan nilai 1 sebagai apa pun setelah Jumat, 5.0, lalu tetapkan kolom masukan sebagai List_Day_of_Week dan kolom keluaran sebagai Listed_On_Weekend.
  • Terapkan transformasi binarizer pada df menggunakan transform().
  • Verifikasi bahwa transformasi berjalan dengan benar dengan menyeleksi kolom List_Day_of_Week dan Listed_On_Weekend menggunakan show().

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Import transformer
from pyspark.____.____ import ____

# Create the transformer
binarizer = ____(threshold=____ inputCol=____, outputCol=____)

# Apply the transformation to df
df = binarizer.____(____)

# Verify transformation
df[[____, ____]].____()
Edit dan Jalankan Kode