Geçersiz satırları inceleme

Join kullanarak satırları başarıyla filtreledin, ancak bazen geçersiz olan veriyi incelemek isteyebilirsin. Bu veriler daha sonra işlenmek veya veri kaynaklarını sorun gidermek için saklanabilir.

İki DataFrame arasındaki farkı bulmak ve geçersiz satırları saklamak istiyorsun.

spark nesnesi tanımlı ve pyspark.sql.functions F olarak içe aktarılmış durumda. Orijinal DataFrame split_df ve join uygulanmış DataFrame joined_df önceki hâlleriyle kullanılabilir.

Bu egzersiz

PySpark ile Veri Temizleme

kursunun bir parçasıdır

Kursu Görüntüle

Egzersiz talimatları

Her bir DataFrame için satır sayılarını belirle.
Yalnızca geçersiz satırları içeren bir DataFrame oluştur.
Yeni DataFrame'in sayımının beklendiği gibi olduğunu doğrula.
Kaldırılan benzersiz klasör satırlarının sayısını belirle.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Determine the row counts for each DataFrame
split_count = ____
joined_count = ____

# Create a DataFrame containing the invalid rows
invalid_df = split_df.____(____(joined_df), '____', '____')

# Validate the count of the new DataFrame is as expected
invalid_count = ____
print(" split_df:\t%d\n joined_df:\t%d\n invalid_df: \t%d" % (split_count, joined_count, invalid_count))

# Determine the number of distinct folder rows removed
invalid_folder_count = invalid_df.____('____').____.____
print("%d distinct invalid folders found" % invalid_folder_count)

Kodu Düzenle ve Çalıştır