Python ile sütun içeriğini filtreleme

DataFrame sütunları üzerinde çeşitli işlemler kullanmayı gördün — şimdi gerçek bir veri kümesini düzenleyebilirsin. voter_df DataFrame’i, son birkaç yılda Dallas Şehir Konseyi’ndeki oylamalara ilişkin seçmen bilgilerini içeriyor. Bu kısaltılmış DataFrame’de oy verme tarihi ile seçmenin adı ve pozisyonu yer alıyor. Yöneticin bu veriyi daha sonra bazı raporlara entegre edilebilmesi için temizlemeni istedi. İlk görev, null girişleri veya garip karakterleri kaldırmak ve bilgilerini doğrulayabileceğin belirli bir seçmen grubunu döndürmek.

Bu, veri temizlemenin ilk adımlarından biridir — biçimin bariz şekilde dışında olanları kaldırmak. Bu veri kümesi için, orijinal veriye bakıp VOTER_NAME sütununda göze aykırı duran neler var kontrol ettiğinden emin ol.

pyspark.sql.functions kütüphanesi zaten F takma adıyla içe aktarıldı.

Bu egzersiz, kursun bir parçasıdır

PySpark ile Veri Temizleme

Kursa Göz Atın

Egzersiz talimatları

Benzersiz VOTER_NAME girişlerini göster.
VOTER_NAME uzunluğu 1–20 karakter olan voter_df satırlarını filtrele.
VOTER_NAME içinde _ bulunan voter_df satırlarını filtreleyip çıkar.
Benzersiz VOTER_NAME girişlerini tekrar göster.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Show the distinct VOTER_NAME entries
voter_df.select(____).distinct().show(40, truncate=False)

# Filter voter_df where the VOTER_NAME is 1-20 characters in length
voter_df = ____('length(VOTER_NAME) > 0 and length(VOTER_NAME) < 20')

# Filter out voter_df where the VOTER_NAME contains an underscore
voter_df = voter_df.filter(~ F.col('VOTER_NAME').____)

# Show the distinct VOTER_NAME entries again
voter_df.____(____).____().____(40, truncate=False)

Kodu Düzenle ve Çalıştır