BaşlayınÜcretsiz Başlayın

Join ile satırları doğrula

Veri filtrelemenin bir başka yolu da geçersiz kayıtları kaldırmak için join kullanmaktır. valid_folders_df adlı bir DataFrame'e göre klasör adlarının beklendiği gibi olup olmadığını doğrulaman gerekecek. split_df DataFrame'i, ayrılmış sütunlar grubuyla bıraktığın son hâlidir.

spark nesnesi hazır ve pyspark.sql.functions F olarak içe aktarılmış durumda.

Bu egzersiz

PySpark ile Veri Temizleme

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • valid_folders_df DataFrame'inde _c0 sütun adını folder olarak yeniden adlandır.
  • split_df içindeki satır sayısını say.
  • İki DataFrame'i klasör adı üzerinden join et ve ortaya çıkan DataFrame'e joined_df adını ver. Küçük olan DataFrame'i mutlaka broadcast et.
  • DataFrame'de kalan satır sayısını kontrol et ve karşılaştır.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Rename the column in valid_folders_df
valid_folders_df = ____

# Count the number of rows in split_df
split_count = ____

# Join the DataFrames
joined_df = split_df.____(____(valid_folders_df), "folder")

# Compare the number of rows remaining
joined_count = ____
print("Before: %d\nAfter: %d" % (split_count, joined_count))
Kodu Düzenle ve Çalıştır