Boolean Oluşturma
Evet-hayır türünde bir soru modellediğini düşün: uçuş gecikti mi? Ancak verilerin, her uçuş için varış gecikmesini dakikayla içeriyor. Bu yüzden, uçuşun gecikip gecikmediğini belirten bir boolean sütunu oluşturman gerekecek!
Bu egzersiz
PySpark Temelleri
kursunun bir parçasıdırEgzersiz talimatları
.withColumn()yöntemini kullanarakis_latesütununu oluştur. Bu sütunmodel_data.arr_delay > 0ifadesine eşit olmalı.- Bu sütunu modelinde kullanabilmek için tamsayı sütununa dönüştür ve adını
labelyap (bu, Spark'ın Machine Learning rutinlerinde yanıt değişkeni için varsayılan addır). - Eksik değerleri filtrele (bu senin için yapıldı).
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Create is_late
model_data = model_data.withColumn("is_late", ____)
# Convert to an integer
model_data = model_data.withColumn("label", ____)
# Remove missing values
model_data = model_data.filter("arr_delay is not NULL and dep_delay is not NULL and air_time is not NULL and plane_year is not NULL")