Boolean Oluşturma
Evet-hayır türünde bir soru modellediğini düşün: uçuş gecikti mi? Ancak verilerin, her uçuş için varış gecikmesini dakikayla içeriyor. Bu yüzden, uçuşun gecikip gecikmediğini belirten bir boolean sütunu oluşturman gerekecek!
Bu egzersiz, kursun bir parçasıdır
PySpark Temelleri
Egzersiz talimatları
.withColumn()yöntemini kullanarakis_latesütununu oluştur. Bu sütunmodel_data.arr_delay > 0ifadesine eşit olmalı.- Bu sütunu modelinde kullanabilmek için tamsayı sütununa dönüştür ve adını
labelyap (bu, Spark'ın Machine Learning rutinlerinde yanıt değişkeni için varsayılan addır). - Eksik değerleri filtrele (bu senin için yapıldı).
Uygulamalı etkileşimli egzersiz
Bu egzersizi bu örnek kodu tamamlayarak deneyin.
# Create is_late
model_data = model_data.withColumn("is_late", ____)
# Convert to an integer
model_data = model_data.withColumn("label", ____)
# Remove missing values
model_data = model_data.filter("arr_delay is not NULL and dep_delay is not NULL and air_time is not NULL and plane_year is not NULL")