DataFrame'leri birleştir
Sonraki iki bölümde, üzerinde çalıştığımız uçuş verilerine dayanarak bir uçuşun gecikip gecikmeyeceğini tahmin eden bir model kuracaksın. Bu model, rotayı uçan uçakla ilgili bilgileri de içerecek, bu yüzden ilk adım iki tabloyu birleştirmek: flights ve planes!
Bu egzersiz, kursun bir parçasıdır
PySpark Temelleri
Egzersiz talimatları
- Önce, yinelenen sütun adlarını önlemek için
planesiçindekiyearsütununuplane_yearolarak yeniden adlandır. tailnumsütununu anahtar olarak kullanarakflightstablosunuplanesile birleştiripmodel_dataadlı yeni bir DataFrame oluştur.
Uygulamalı etkileşimli egzersiz
Bu egzersizi bu örnek kodu tamamlayarak deneyin.
# Rename year column
planes = planes.withColumnRenamed(____)
# Join the DataFrames
model_data = flights.join(____, on=____, how="leftouter")