Yorum satırlarını kaldırma

Patronun, yeni bir veri kümesi üzerinde bazı karmaşık ayrıştırmalar yapmanı istiyor. Bu veriler, ImageNet veri kümesi için açıklama (annotation) verilerini temsil ediyor; ancak özellikle köpek ırklarına ve bunların görsellerde tespitine odaklanıyor. Asıl analize geçmeden önce, geçersiz/yanlış verilerin birkaç bileşenini temizlemen gerekiyor. Belgenin genel şeması bilinmiyor, bu yüzden hızlı analiz için satırları tek bir sütuna aktararak içe almak istiyorsun.

Başlamak için, veri kümesindeki tüm yorum satırlarını kaldırmalısın.

spark bağlamı ve temel CSV dosyası (annotations.csv.gz) kullanman için hazır. Ayrıca col fonksiyonu da kullanımına açık.

Bu egzersiz, kursun bir parçasıdır

PySpark ile Veri Temizleme

Kursa Göz Atın

Egzersiz talimatları

annotations.csv.gz dosyasını bir DataFrame'e aktar ve satır sayımını yap. Ayırıcı karakter olarak | belirt.
Veride # ile başlayan satırların sayısını sorgula.
Dosyayı tekrar yeni bir DataFrame'e aktar, ancak yorum satırlarını kaldırmak için seçeneklerde yorum karakterini belirt.
Yeni DataFrame'i say ve farkın beklendiği gibi olduğunu doğrula.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Import the file to a DataFrame and perform a row count
annotations_df = spark.read.____('____', sep=____)
full_count = annotations_df.____

# Count the number of rows beginning with '#'
comment_count = annotations_df.____(col('_c0').____('#')).count()

# Import the file to a new DataFrame, without commented rows
no_comments_df = ____.____.____('____', ____=____, comment='____')

# Count the new DataFrame and verify the difference is as expected
no_comments_count = no_comments_df.count()
print("Full count: %d\nComment count: %d\nRemaining count: %d" % (____, ____, ____))

Kodu Düzenle ve Çalıştır