Geçersiz satırları kaldırma
Artık yorum satırlarını başarılı bir şekilde kaldırdığına göre, verinin genel biçimi hakkında bazı bilgiler aldın. DataFrame'de en az 5 sekmeyle ayrılmış sütun olmalı. Unutma, özgün DataFrame'inde yalnızca tek bir sütun var, bu yüzden veriyi sekme (\t) karakterlerine göre bölmen gerekecek.
annotations_df DataFrame'i, yorum satırları kaldırılmış şekilde hazır. spark.sql.functions kütüphanesi F takma adıyla kullanılabilir. DataFrame'deki başlangıçtaki satır sayısı initial_count değişkeninde saklı.
Bu egzersiz
PySpark ile Veri Temizleme
kursunun bir parçasıdırEgzersiz talimatları
annotations_dfDataFrame'indeki'_c0'sütununu sekme karakterine göre bölerektmp_fieldsadlı yeni bir değişken oluştur.- Bir önceki adımda elde edilen alan sayısını gösteren
'colcount'adlı yeni bir sütunuannotations_dfiçine ekle. annotations_dfiçinden 5'ten az alan içeren satırları filtreleyip çıkar.- DataFrame'deki satır sayısını say ve
initial_countile karşılaştır.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Split _c0 on the tab character and store the list in a variable
tmp_fields = ____(annotations_df['_c0'], ____)
# Create the colcount column on the DataFrame
annotations_df = annotations_df.____('____', ____(____))
# Remove any rows containing fewer than 5 fields
annotations_df_filtered = annotations_df.____(~ (____))
# Count the number of rows
final_count = ____
print("Initial count: %d\nFinal count: %d" % (initial_count, final_count))