BaşlayınÜcretsiz Başlayın

Join işlemleri II

PySpark'ta join işlemleri, DataFrame metodı .join() ile yapılır. Bu metod üç argüman alır. İlki, birincisiyle birleştirmek istediğin ikinci DataFrame'dir. İkinci argüman olan on, anahtar sütun(lar)ın adını bir string olarak alır. Anahtar sütun(lar)ın adları her tabloda aynı olmalıdır. Üçüncü argüman how, yapılacak join türünü belirtir. Bu derste her zaman how="leftouter" değerini kullanacağız.

flights veri kümesi ve airports adlı yeni bir veri kümesi çalışma alanında zaten yüklü.

Bu egzersiz

PySpark Temelleri

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • .show() çağırarak airports DataFrame'ini incele. airportsflights tablosuna hangi anahtar sütunla bağlayabileceğini not et.
  • airports.withColumnRenamed("faa", "dest") sonucunu airports'a yeniden atayarak airports içindeki faa sütununun adını dest olarak değiştir.
  • flights üzerinde .join() metodunu çağırarak flights ile airports DataFrame'ini dest sütununda birleştir. Sonucu flights_with_airports olarak kaydet.
    • İlk argüman diğer DataFrame olan airports olmalı.
    • on argümanı anahtar sütun olmalı.
    • how argümanı "leftouter" olmalı.
  • Veriyi tekrar incelemek için flights_with_airports üzerinde .show() çağır. Eklenen yeni bilgileri not et.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Examine the data
print(____)

# Rename the faa column
airports = ____

# Join the DataFrames
flights_with_airports = ____

# Examine the new DataFrame
print(____)
Kodu Düzenle ve Çalıştır