Geçersiz satırları kaldırma

Artık yorum satırlarını başarılı bir şekilde kaldırdığına göre, verinin genel biçimi hakkında bazı bilgiler aldın. DataFrame'de en az 5 sekmeyle ayrılmış sütun olmalı. Unutma, özgün DataFrame'inde yalnızca tek bir sütun var, bu yüzden veriyi sekme (\t) karakterlerine göre bölmen gerekecek.

annotations_df DataFrame'i, yorum satırları kaldırılmış şekilde hazır. spark.sql.functions kütüphanesi F takma adıyla kullanılabilir. DataFrame'deki başlangıçtaki satır sayısı initial_count değişkeninde saklı.

Bu egzersiz, kursun bir parçasıdır

PySpark ile Veri Temizleme

Kursa Göz Atın

Egzersiz talimatları

annotations_df DataFrame'indeki '_c0' sütununu sekme karakterine göre bölerek tmp_fields adlı yeni bir değişken oluştur.
Bir önceki adımda elde edilen alan sayısını gösteren 'colcount' adlı yeni bir sütunu annotations_df içine ekle.
annotations_df içinden 5'ten az alan içeren satırları filtreleyip çıkar.
DataFrame'deki satır sayısını say ve initial_count ile karşılaştır.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Split _c0 on the tab character and store the list in a variable
tmp_fields = ____(annotations_df['_c0'], ____)

# Create the colcount column on the DataFrame
annotations_df = annotations_df.____('____', ____(____))

# Remove any rows containing fewer than 5 fields
annotations_df_filtered = annotations_df.____(~ (____))

# Count the number of rows
final_count = ____
print("Initial count: %d\nFinal count: %d" % (initial_count, final_count))

Kodu Düzenle ve Çalıştır