Membuat Boolean
Bayangkan Anda memodelkan pertanyaan ya atau tidak: apakah penerbangan terlambat? Namun, data Anda berisi keterlambatan kedatangan dalam menit untuk setiap penerbangan. Jadi, Anda perlu membuat kolom boolean yang menunjukkan apakah penerbangan terlambat atau tidak!
Latihan ini adalah bagian dari kursus
Dasar-Dasar PySpark
Petunjuk latihan
- Gunakan metode
.withColumn()untuk membuat kolomis_late. Kolom ini sama denganmodel_data.arr_delay > 0. - Konversikan kolom ini menjadi kolom integer agar dapat digunakan dalam model Anda dan beri nama
label(ini adalah nama bawaan untuk variabel respons dalam rutin Machine Learning Spark). - Saring nilai yang hilang (ini sudah dilakukan untuk Anda).
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Create is_late
model_data = model_data.withColumn("is_late", ____)
# Convert to an integer
model_data = model_data.withColumn("label", ____)
# Remove missing values
model_data = model_data.filter("arr_delay is not NULL and dep_delay is not NULL and air_time is not NULL and plane_year is not NULL")