Join işlemleri II
PySpark'ta join işlemleri, DataFrame metodı .join() ile yapılır. Bu metod üç argüman alır. İlki, birincisiyle birleştirmek istediğin ikinci DataFrame'dir. İkinci argüman olan on, anahtar sütun(lar)ın adını bir string olarak alır. Anahtar sütun(lar)ın adları her tabloda aynı olmalıdır. Üçüncü argüman how, yapılacak join türünü belirtir. Bu derste her zaman how="leftouter" değerini kullanacağız.
flights veri kümesi ve airports adlı yeni bir veri kümesi çalışma alanında zaten yüklü.
Bu egzersiz
PySpark Temelleri
kursunun bir parçasıdırEgzersiz talimatları
.show()çağırarakairportsDataFrame'ini incele.airports'ıflightstablosuna hangi anahtar sütunla bağlayabileceğini not et.airports.withColumnRenamed("faa", "dest")sonucunuairports'a yeniden atayarakairportsiçindekifaasütununun adınıdestolarak değiştir.flightsüzerinde.join()metodunu çağırarakflightsileairportsDataFrame'inidestsütununda birleştir. Sonucuflights_with_airportsolarak kaydet.- İlk argüman diğer DataFrame olan
airportsolmalı. onargümanı anahtar sütun olmalı.howargümanı"leftouter"olmalı.
- İlk argüman diğer DataFrame olan
- Veriyi tekrar incelemek için
flights_with_airportsüzerinde.show()çağır. Eklenen yeni bilgileri not et.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Examine the data
print(____)
# Rename the faa column
airports = ____
# Join the DataFrames
flights_with_airports = ____
# Examine the new DataFrame
print(____)