Join işlemleri II
PySpark'ta join işlemleri, DataFrame metodı .join() ile yapılır. Bu metod üç argüman alır. İlki, birincisiyle birleştirmek istediğin ikinci DataFrame'dir. İkinci argüman olan on, anahtar sütun(lar)ın adını bir string olarak alır. Anahtar sütun(lar)ın adları her tabloda aynı olmalıdır. Üçüncü argüman how, yapılacak join türünü belirtir. Bu derste her zaman how="leftouter" değerini kullanacağız.
flights veri kümesi ve airports adlı yeni bir veri kümesi çalışma alanında zaten yüklü.
Bu egzersiz, kursun bir parçasıdır
PySpark Temelleri
Egzersiz talimatları
.show()çağırarakairportsDataFrame'ini incele.airports'ıflightstablosuna hangi anahtar sütunla bağlayabileceğini not et.airports.withColumnRenamed("faa", "dest")sonucunuairports'a yeniden atayarakairportsiçindekifaasütununun adınıdestolarak değiştir.flightsüzerinde.join()metodunu çağırarakflightsileairportsDataFrame'inidestsütununda birleştir. Sonucuflights_with_airportsolarak kaydet.- İlk argüman diğer DataFrame olan
airportsolmalı. onargümanı anahtar sütun olmalı.howargümanı"leftouter"olmalı.
- İlk argüman diğer DataFrame olan
- Veriyi tekrar incelemek için
flights_with_airportsüzerinde.show()çağır. Eklenen yeni bilgileri not et.
Uygulamalı etkileşimli egzersiz
Bu egzersizi bu örnek kodu tamamlayarak deneyin.
# Examine the data
print(____)
# Rename the faa column
airports = ____
# Join the DataFrames
flights_with_airports = ____
# Examine the new DataFrame
print(____)