Geçersiz satırları inceleme
Join kullanarak satırları başarıyla filtreledin, ancak bazen geçersiz olan veriyi incelemek isteyebilirsin. Bu veriler daha sonra işlenmek veya veri kaynaklarını sorun gidermek için saklanabilir.
İki DataFrame arasındaki farkı bulmak ve geçersiz satırları saklamak istiyorsun.
spark nesnesi tanımlı ve pyspark.sql.functions F olarak içe aktarılmış durumda. Orijinal DataFrame split_df ve join uygulanmış DataFrame joined_df önceki hâlleriyle kullanılabilir.
Bu egzersiz
PySpark ile Veri Temizleme
kursunun bir parçasıdırEgzersiz talimatları
- Her bir DataFrame için satır sayılarını belirle.
- Yalnızca geçersiz satırları içeren bir DataFrame oluştur.
- Yeni DataFrame'in sayımının beklendiği gibi olduğunu doğrula.
- Kaldırılan benzersiz klasör satırlarının sayısını belirle.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Determine the row counts for each DataFrame
split_count = ____
joined_count = ____
# Create a DataFrame containing the invalid rows
invalid_df = split_df.____(____(joined_df), '____', '____')
# Validate the count of the new DataFrame is as expected
invalid_count = ____
print(" split_df:\t%d\n joined_df:\t%d\n invalid_df: \t%d" % (split_count, joined_count, invalid_count))
# Determine the number of distinct folder rows removed
invalid_folder_count = invalid_df.____('____').____.____
print("%d distinct invalid folders found" % invalid_folder_count)