Yorum satırlarını kaldırma
Patronun, yeni bir veri kümesi üzerinde bazı karmaşık ayrıştırmalar yapmanı istiyor. Bu veriler, ImageNet veri kümesi için açıklama (annotation) verilerini temsil ediyor; ancak özellikle köpek ırklarına ve bunların görsellerde tespitine odaklanıyor. Asıl analize geçmeden önce, geçersiz/yanlış verilerin birkaç bileşenini temizlemen gerekiyor. Belgenin genel şeması bilinmiyor, bu yüzden hızlı analiz için satırları tek bir sütuna aktararak içe almak istiyorsun.
Başlamak için, veri kümesindeki tüm yorum satırlarını kaldırmalısın.
spark bağlamı ve temel CSV dosyası (annotations.csv.gz) kullanman için hazır. Ayrıca col fonksiyonu da kullanımına açık.
Bu egzersiz
PySpark ile Veri Temizleme
kursunun bir parçasıdırEgzersiz talimatları
annotations.csv.gzdosyasını bir DataFrame'e aktar ve satır sayımını yap. Ayırıcı karakter olarak | belirt.- Veride # ile başlayan satırların sayısını sorgula.
- Dosyayı tekrar yeni bir DataFrame'e aktar, ancak yorum satırlarını kaldırmak için seçeneklerde yorum karakterini belirt.
- Yeni DataFrame'i say ve farkın beklendiği gibi olduğunu doğrula.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Import the file to a DataFrame and perform a row count
annotations_df = spark.read.____('____', sep=____)
full_count = annotations_df.____
# Count the number of rows beginning with '#'
comment_count = annotations_df.____(col('_c0').____('#')).count()
# Import the file to a new DataFrame, without commented rows
no_comments_df = ____.____.____('____', ____=____, comment='____')
# Count the new DataFrame and verify the difference is as expected
no_comments_count = no_comments_df.count()
print("Full count: %d\nComment count: %d\nRemaining count: %d" % (____, ____, ____))