BaşlayınÜcretsiz başlayın

Join işlemleri II

PySpark'ta join işlemleri, DataFrame metodı .join() ile yapılır. Bu metod üç argüman alır. İlki, birincisiyle birleştirmek istediğin ikinci DataFrame'dir. İkinci argüman olan on, anahtar sütun(lar)ın adını bir string olarak alır. Anahtar sütun(lar)ın adları her tabloda aynı olmalıdır. Üçüncü argüman how, yapılacak join türünü belirtir. Bu derste her zaman how="leftouter" değerini kullanacağız.

flights veri kümesi ve airports adlı yeni bir veri kümesi çalışma alanında zaten yüklü.

Bu egzersiz, kursun bir parçasıdır

PySpark Temelleri

Kursa Göz Atın

Egzersiz talimatları

  • .show() çağırarak airports DataFrame'ini incele. airportsflights tablosuna hangi anahtar sütunla bağlayabileceğini not et.
  • airports.withColumnRenamed("faa", "dest") sonucunu airports'a yeniden atayarak airports içindeki faa sütununun adını dest olarak değiştir.
  • flights üzerinde .join() metodunu çağırarak flights ile airports DataFrame'ini dest sütununda birleştir. Sonucu flights_with_airports olarak kaydet.
    • İlk argüman diğer DataFrame olan airports olmalı.
    • on argümanı anahtar sütun olmalı.
    • how argümanı "leftouter" olmalı.
  • Veriyi tekrar incelemek için flights_with_airports üzerinde .show() çağır. Eklenen yeni bilgileri not et.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Examine the data
print(____)

# Rename the faa column
airports = ____

# Join the DataFrames
flights_with_airports = ____

# Examine the new DataFrame
print(____)
Kodu Düzenle ve Çalıştır