BaşlayınÜcretsiz Başlayın

Boolean Oluşturma

Evet-hayır türünde bir soru modellediğini düşün: uçuş gecikti mi? Ancak verilerin, her uçuş için varış gecikmesini dakikayla içeriyor. Bu yüzden, uçuşun gecikip gecikmediğini belirten bir boolean sütunu oluşturman gerekecek!

Bu egzersiz

PySpark Temelleri

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • .withColumn() yöntemini kullanarak is_late sütununu oluştur. Bu sütun model_data.arr_delay > 0 ifadesine eşit olmalı.
  • Bu sütunu modelinde kullanabilmek için tamsayı sütununa dönüştür ve adını label yap (bu, Spark'ın Machine Learning rutinlerinde yanıt değişkeni için varsayılan addır).
  • Eksik değerleri filtrele (bu senin için yapıldı).

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Create is_late
model_data = model_data.withColumn("is_late", ____)

# Convert to an integer
model_data = model_data.withColumn("label", ____)

# Remove missing values
model_data = model_data.filter("arr_delay is not NULL and dep_delay is not NULL and air_time is not NULL and plane_year is not NULL")
Kodu Düzenle ve Çalıştır