MulaiMulai sekarang secara gratis

Membuat Boolean

Bayangkan Anda memodelkan pertanyaan ya atau tidak: apakah penerbangan terlambat? Namun, data Anda berisi keterlambatan kedatangan dalam menit untuk setiap penerbangan. Jadi, Anda perlu membuat kolom boolean yang menunjukkan apakah penerbangan terlambat atau tidak!

Latihan ini adalah bagian dari kursus

Dasar-Dasar PySpark

Lihat Kursus

Petunjuk latihan

  • Gunakan metode .withColumn() untuk membuat kolom is_late. Kolom ini sama dengan model_data.arr_delay > 0.
  • Konversikan kolom ini menjadi kolom integer agar dapat digunakan dalam model Anda dan beri nama label (ini adalah nama bawaan untuk variabel respons dalam rutin Machine Learning Spark).
  • Saring nilai yang hilang (ini sudah dilakukan untuk Anda).

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Create is_late
model_data = model_data.withColumn("is_late", ____)

# Convert to an integer
model_data = model_data.withColumn("label", ____)

# Remove missing values
model_data = model_data.filter("arr_delay is not NULL and dep_delay is not NULL and air_time is not NULL and plane_year is not NULL")
Edit dan Jalankan Kode