Join ile satırları doğrula
Veri filtrelemenin bir başka yolu da geçersiz kayıtları kaldırmak için join kullanmaktır. valid_folders_df adlı bir DataFrame'e göre klasör adlarının beklendiği gibi olup olmadığını doğrulaman gerekecek. split_df DataFrame'i, ayrılmış sütunlar grubuyla bıraktığın son hâlidir.
spark nesnesi hazır ve pyspark.sql.functions F olarak içe aktarılmış durumda.
Bu egzersiz
PySpark ile Veri Temizleme
kursunun bir parçasıdırEgzersiz talimatları
valid_folders_dfDataFrame'inde_c0sütun adınıfolderolarak yeniden adlandır.split_dfiçindeki satır sayısını say.- İki DataFrame'i klasör adı üzerinden join et ve ortaya çıkan DataFrame'e
joined_dfadını ver. Küçük olan DataFrame'i mutlaka broadcast et. - DataFrame'de kalan satır sayısını kontrol et ve karşılaştır.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Rename the column in valid_folders_df
valid_folders_df = ____
# Count the number of rows in split_df
split_count = ____
# Join the DataFrames
joined_df = split_df.____(____(valid_folders_df), "folder")
# Compare the number of rows remaining
joined_count = ____
print("Before: %d\nAfter: %d" % (split_count, joined_count))